[테크톡노트] 보고 듣고 이해한다…멀티모달 AI는 무엇이 다른가

연합뉴스 2025-12-28 00:00:17

이미지·음성·텍스트를 함께 처리하는 인공지능

시각·청각 정보 결합해 맥락 파악

AI 검색 경쟁 가열…검색시장 '구글' 독점 깨나(CG)

(서울=연합뉴스) 오지은 기자 = "이 안경, 내 얼굴형에 어울릴까.", "이 새소리, 어떤 새가 우는 걸까."

글자만 읽던 인공지능(AI)을 넘어, 보고·듣고·함께 이해하는 인공지능이 등장했다.

사진, 음성, 텍스트 등 서로 다른 형태의 정보를 동시에 받아 의미를 파악하는 '멀티모달 AI'가 바로 그것이다.

멀티모달 AI는 이미지를 보면 설명을 만들고, 소리를 들으면 맥락을 추론하며, 여러 정보를 결합해 하나의 판단을 내린다. 인간이 시각과 청각을 함께 활용해 상황을 이해하는 방식과 유사하다.

27일 정보통신기술(ICT) 업계에 따르면 이처럼 이미지나 음성 등을 인식해 처리할 수 있는 멀티모달 인공지능(AI)이 주목받고 있다.

멀티모달 AI은 단일 유형의 데이터를 처리하도록 설계된 기존 AI 모델과 달리 다양한 형태의 데이터를 결합하고 분석할 수 있다.

기존 AI 모델은 일상어를 이해하는 자연어 분석(NLP)이 전제돼야만 추론을 할 수 있다고 봤다.

하지만 멀티모달 AI의 경우 인간의 정보 처리 방식과 유사하게 시각, 청각 등 여러 감각을 통합해 사고하고 결정하는 방식을 사용한다.

예컨대 멀티모달 AI는 풍경 사진을 입력받아 해당 장소에 대한 요약을 생성할 수 있고, 이러한 설명을 기반으로 이미지를 생성할 수 있다.

멀티모달 AI는 텍스트 기반 대형언어모델(LLM)의 한계를 뛰어넘을 수 있는 대안으로 손꼽히고 있다.

멀티모달 AI는 텍스트로만 설명할 수 없는 실제 장면과 감정적 맥락을 사진, 소리, 움직임 등 비언어적 정보를 이용해 해석할 수 있기 때문이다.

최근 멀티모달 AI는 문서 기반 비정형 데이터 처리에 효과적으로 사용되고 있다.

문자를 추출하는 광학문자판독(OCR)을 넘어서 레이아웃 구조, 표, 차트, 문맥적 의미를 동시에 파악하는 데 멀티모달 AI가 쓰이는 것이다.

멀티모달 OCR을 적용하면 한글 문서, 표, 그래프를 이해할 수 있고, 이를 요약하거나 자원관리시스템(ERP)과 연동하는 작업까지 수행할 수 있다.

아울러 자율주행, 스마트 로봇에도 멀티모달 AI가 쓰일 수 있다.

카메라, 위치정보시스템(GPS), 관성 측정 장치(IMU) 등 다양한 센서 데이터를 결합해 돌발 상황을 즉각 반응할 수 있도록 하는 기능은 멀티모달 학습을 통해 가능하기 때문이다.

생성형 AI와 챗봇도 대표적인 멀티모달 AI의 사용처다.

멀티모달 AI를 활용하면 이용자는 일상어로 물어보고 AI는 이미지로 대답하는 등 다양한 용법을 활용할 수 있기 때문이다.

업계 관계자는 "멀티모달 AI는 다양한 유형의 데이터를 통합해 더 많은 맥락을 파악하고 모호성을 줄일 수 있다"라며 "멀티모달 AI 시스템은 잡음과 누락된 데이터에 대한 복원력이 뛰어나다"라고 평가했다.

built@yna.co.kr