“하나를 가르치면 알아서 둘 배우는 AI”…UNIST, ‘멀티 모달 학습법’ 개발

송현수 기자 songh@busan.com
부산닷컴 기사퍼가기

“서로 다른 AI 데이터 유형 간에도 학습 촉진 효과"
오디오·이미지 등 연관성 작은 조합서도 AI 성능 향상
데이터 구축 비용 절감, 의료·자율주행 등 적용 기대

UNIST 이재준 연구원(좌측)과 윤성환 교수. UNIST 제공 UNIST 이재준 연구원(좌측)과 윤성환 교수. UNIST 제공

인공지능(AI)에게 한 유형의 데이터만 가르쳐서, 다른 유형의 데이터 학습을 촉진 시킬 수 있는 학습 방식이 개발됐다. 서로 다른 유형의 데이터 학습에서 꼭 필요하다고 여겨지던 데이터 정렬 작업 없이도 학습이 가능해져 데이터셋 구축 비용 등을 절감할 수 있을 것으로 기대된다.

울산과학기술원(UNIST) 인공지능대학원 윤성환 교수팀은 데이터 정렬과 매칭 없이 하나의 데이터 유형만으로 다른 유형의 모델 학습을 촉진시킬 수 있는 ‘AI 멀티모달 학습 기술’을 개발했다고 7일 밝혔다.

멀티모달 학습은 오디오, 이미지, 텍스트와 같이 서로 다른 데이터 유형(모달리티)을 결합해 통합적으로 이해하고 처리하는 학습법이다.

이 학습을 위해서는 고품질의 정렬된 데이터세트가 필요하다. 또 각 유형의 데이터가 정확하게 짝을 이루면서 학습이 이뤄지기 때문에 잘 매칭된 형태의 데이터가 있어야 한다. 명확히 짝지어진 데이터가 부족하면 성능이 저하되기도 한다.


본 연구에서 선보인 synergestic multimodal learning 알고리즘. 한 모달리티를 학습할 때(예: 이미지 모달리티, 빨간색), 다른 모달리티(예: 언어 모달리티, 회색)의 도움을 받아 학습을 진행할 시에, 두 모달리티의 정보를 모두 포함하는 학습(초록색)이 가능하다. 이를 통해 모든 모달리티의 특성을 잘 반영하는 방향(검정색)으로 학습할 수 있다. UNIST 제공 본 연구에서 선보인 synergestic multimodal learning 알고리즘. 한 모달리티를 학습할 때(예: 이미지 모달리티, 빨간색), 다른 모달리티(예: 언어 모달리티, 회색)의 도움을 받아 학습을 진행할 시에, 두 모달리티의 정보를 모두 포함하는 학습(초록색)이 가능하다. 이를 통해 모든 모달리티의 특성을 잘 반영하는 방향(검정색)으로 학습할 수 있다. UNIST 제공

윤 교수팀이 내놓은 학습법은 짝지어지지 않은 데이터로도 멀티모달 학습이 가능하다.

연구진은 텍스트 모델이 이미지 모델 학습을 돕거나 오디오 모델이 언어 모델 성능을 높일 수 있는지 확인하는 실험을 진행했다. 그 결과 기존보다 높은 정확도로 데이터 유형 간 학습 촉진 효과가 확인됐다. 특히 오디오와 이미지처럼 직접적인 연관성이 작은 조합에서도 AI의 성능 향상이 나타났다고 연구진은 설명했다.

연구진은 서로 다른 유형의 데이터 학습에서 꼭 필요하다고 여겨졌던 데이터 정렬 작업 없이도 학습이 가능해 데이터세트 구축 비용 등을 절감할 수 있을 것으로 기대한다.

윤성환 교수는 "정렬된 데이터세트 확보가 어려운 의료, 자율주행, 스마트 AI 비서 등 다양한 분야에서 활용 가능성이 높다"고 말했다. 이번 연구 결과는 세계 3대 인공지능 학회인 'ICLR(International Conference on Learning Representations) 2025'에서 발표됐다.


송현수 기자 songh@busan.com

당신을 위한 AI 추천 기사