본문 바로가기

Banner Image
AI

▌텍스트를 넘어 일상에 스며드는 멀티모달 AI의 세계

 

 

인터스텔라 STAY 장면을 지브리스타일로 제작한 사진 ChatGPT로 생성함
인터스텔라 STAY 장면을 **스타일로 제작 ChatGPT

 

 우리는 말하고, 보고, 듣고, 느끼며 다양한 방식으로 소통합니다. 이제 인공지능도 이런 다차원적 소통 능력을 갖추기 시작했습니다. 이것이 바로 '멀티모달 AI'의 핵심입니다. 멀티모달 AI란 텍스트, 이미지, 음성, 영상 등 여러 형태의 데이터를 동시에 이해하고 처리할 수있는 인공지능을 말합니다.

 우리가 일상에서 경험하는 정보는 한 가지 형태가 아닌 복합적인 경우가 많은데, 멀티모달 AI는 이런 복잡한 정보를 마치 사람의 뇌가 여러 감각을 통해 정보를 수집하고 처리하는 방식을 모방하여, 텍스트와 이미지, 오디오 등 다양한 데이터를 동시에 분석합니다. 즉, 정확한 상황 인지를 통해서 적절한 판단을 내릴 수 있는 AI가 된다는 의미입니다.

 

인간이 사과를 이해하는 방식은 다양해요. (출처: Intel Labs)
인간이 사과를 이해하는 방식은 다양해요. (출처: Intel Labs)

기존 AI의 한계와 멀티모달 AI의 등장

 반면에 기존의 텍스트 기반 AI 시스템은 텍스트로 작성된 언어만 이해하고 반응할 수 있고, 이미지 생성 AI는 학습된 시각 데이터에 의존합니다. 우리가 사용해본 것처럼 이 AI역시 특정 도메인 내에서 놀라운 성능과 효율을 보여주지만 우리의 의도와 맥락을 이해하는데 부족함이 있었습니다.
 최근 오픈AI의 Chatgpt 이미지 제너레이션기능은 지브리 열풍을 불러일으키며 대중에게 멀티모달의 위력을 각인시켰습니다. 이미지 생성에 사용된 'GPT-4o'는 멀티모달 모델로 기존의 확산 모델이 아닌 ‘오토 리그레시브 방식’을 사용합니다. 이 방식은 단어를 이어 붙이는 것처럼 이미지 토큰을 순서대로 만들어 전체 그림을 완성하는 구조로, 텍스트와 이미지의 하나의 모델에서 통합적으로 처리할 수 있어 텍스트 요청만으로 정밀한 표현과 사용자의 수정요청에 대응할 수 있습니다. 이로서 일반 사용자 수준에서 만들기 어려웠던 4컷 만화, 이미지내 텍스트의 자연스러운 표현 등을 누구나 할 수 있게 되었습니다.

 

ChatGPT가 그린 6컷 만화, 펭귄섬의 관세부과에 대한 대응을 코믹하게 그린 만화
ChatGPT가 그린 6컷 만화

 

다양한 산업 분야로 확장되는 멀티모달 AI

 멀티모달 기술은 다양한 산업 현장에 적용되고 있습니다. 의료 분야에서는 환자의 증상 설명(텍스트), X-레이나 MRI 이미지, 심장 박동 소리 등을 종합적으로 분석해 더 정확한 진단을 지원합니다. 자율주행차는 도로 상황(영상)과 차량 내부 상태를 실시간으로 동시에 분석하여 안전한 주행을 가능하게 합니다. 제조업에서는 공정관리와 품질 검사에 멀티모달 AI가 활용되어 생산성과 정확도를 높입니다. 센서 데이터, 유지보수 로그, 창고 이미지를 종합적으로 학습해 최적의 재고 관리와 공급망 최적화를 이루어 냅니다. 예시로 GM-MS는 수 만개의 센서를 공장에 설치해 코파일럿 기반의 멀티모달 AI로 스마트 공장을 가동하고 있습니다. 이렇게 멀티모달 AI 시스템은LLM으로 대중화된 AI의 활용을 실제 산업현장으로 연결하여 사람처럼 상황 인지를 하고, 사람보다 더 날카롭고 정확한 분석으로 생산성을 증대시킵니다.

 

Smart Factory의 형태를 도식화한 일러스트
이미지 출처: http://techgenix.com/smart-factory/

멀티모달 AI의 과제와 미래

 다만 멀티모달 AI는 아직 완성된 기술은 아닙니다. 텍스트 기반 모델에서 나타나는 '환각' 문제나 편향성이 멀티모달 환경에서는 더 복잡해질 수 있습니다. 또한, 다양한 형태의 데이터를 처리하기 위해 대규모의 컴퓨팅 자원과 데이터 및 에너지가 필요하다는 과제도 있습니다. 이 요인으로 인해 대규모 투자가 가능한 주체와 아닌 주체 간 양극화가 발생할 것이라는 우려 섞인 목소리도 있습니다.
 우리의 일상과 비즈니스 환경은 이미 멀티모달 AI에 의해 조금씩 변화하고 있습니다.앞으로 2년 내에 다양한 활용 사례가 등장할 것이며, 우리가 기계와 소통하는 방식은 더욱 자연스럽고 직관적으로 발전해 나갈 것입니다. 어쩌면 너무나도 빠른 진화 속도에 우리도 적응해 지금과 같이 발전하는 모습을 당연하게 여기고 있는지도 모릅니다. 그래서 이번 ChatGPT 이미지 제너레이션 열풍 뒤에 멀티모달의 존재를 놓치고 있는 것은 아닌가 싶어 이 글을 작성하게 되었습니다. 앞으로 인간의 오감을 닮아가는 AI, 우리의 삶을 어떻게 변화시킬지 지켜보는 것도 흥미로운 여정이 될 것입니다.

 

9dots consulting Korea의 배너