본문 바로가기

Banner Image
AI

▌월드 모델(LWM): 현실 세계를 이해하는 AI

 

월드랩스의 AI 기술로 제작된 3D 그래픽. (그래픽=월드랩스)
월드랩스의 AI 기술로 제작된 3D 그래픽. (그래픽=월드랩스)

월드 모델(LWM)의 등장과 미래

 기존의 대형언어모델(LLM)이나 이미지 생성 AI는 놀라운 발전을 거듭하고 있습니다. 그럼에도 불구하고 최근 ‘월드 모델(LWM)이 주목받고 있습니다. 비디오 생성 AI ‘Sora’의 등장으로 월드 모델에 대한 관심이 고조되기 시작했습니다. 페이페이 리(Fei-Fei Li) 교수가 이끄는 World Labs같은 스타트업들의 프로젝트들도 눈길을 끌고 있구요. 최근에는 엔비디아와 구글 같은 빅테크들도 월드 모델에 투자하고 있습니다. 구글은 최근 월드 모델의 개발을 위해 새로운 팀을 구성했다는 소식이 전해졌는데요, 무엇이 이들로 하여금 월드 모델에 주목하게 하는지 이번 글에서 월드 모델이란 무엇이며, 왜 주목받고 있는지 살펴보도록 하겠습니다.

 

월드 모델(LWM)과 거대언어모델(LLM)의 차이

 월드 모델이라는 단어의 등장은 사카나AI의 공동 창립자인 데이비드 하와 유르겐 슈미트후버가 ‘세계 모델(World Models)'이라는 제목의 논문을 내놓은 것이 시초입니다. 이후에는 ‘AI의 대모’로 불리는 페이페이 리 스탠포드대학교 교수가 월드랩스라는 스타트업을 설립하면서 ‘월드 모델’이 주목받습니다. 특히 메타의 수석 AI 과학자인 얀 르쿤은 AI가 인간 수준의 지능에 도달하기 위해서는 대형언어모델(LLM)을 넘어 세계 모델이 필요하다고 주장하여 ‘월드 모델’은 업계의 뜨거운 화두가 되었습니다. 기존의 대형언어모델(LLM)이나 이미지 생성 AI는 방대한 데이터에서 패턴을 학습하고 이를 바탕으로 새로운 콘텐츠를 생성합니다. 예를 들어, AI는 ‘중력 실험’에 대해 설명해줘’, ‘중력실험을 하는 장면을 그려줘’라는 질의에는 답할 수 있지만, 이 실험에 어떤 물리적 법칙이 작용하는지는 이해하지 못합니다. 반면 월드 모델은 세상의 물리 법칙과 인과관계를 내부적으로 표현하고 이해하는 것을 목표로 합니다. 이를 위해 텍스트, 이미지, 비디오, 오디오 등 다양한 형태의 데이터를 종합적으로 학습하여 현실 세계의 역학을 모델링합니다. 이러한 접근 방식은 AI가 단순히 반응하는 것을 넘어 결과를 예측하고, 시나리오를 상상하며, 더 현실적인 계획을 수립할 수 있게 합니다. 정리하면 ‘월드 모델’은 인공지능에게 상상력을 부여해 주는 것이라고 할 수 있습니다. 마치 인간이 세상을 인지하듯이 AI가 가상의 환경에서 학습하여 추상적인 모델을 구축하는 방식입니다.

 

월드 모델의 현재

World Labs의 월드 모델 예시 사진
월드랩스의 AI 기술로 제작된 3D 그래픽

 

 사진 한 장으로부터 3D환경을 만들어 내는 월드랩스의 서비스를 보면 지금까지의 사진에서 3D로 전환하는 기술과는 달리 상호작용이 가능하다는 점이 특징입니다. 보기만 하는 게 아니라 오픈월드를 걸어 다니듯 사용자가 가상 환경을 탐색할 수 있습니다. 이어 월드랩스측은"대부분의 생성형 AI 도구는 이미지나 비디오와 같은 2D 콘텐츠를 만든다"라면서 "3D로 생성하면 제어와 일관성이 향상된다. 영화, 게임, 시뮬레이터 및 물리적 세계의 다른 디지털 표현을 만드는 방식을 바꿀 것이다"라고 월드모델의 강점을 강조합니다.

 

CES 엔비디아 코스모스 발표 장면
(자료=엔비디아)

 

 이번 CES에서 엔비디아(NVIDIA)가 물리적 세계와 상호작용하는 AI 개발을 가속화할 수 있는 월드 파운데이션 모델(World Foundation Model, WFM) 플랫폼 '코스모스(Cosmos)'를 공개했습니다. 코스모스는 엔비디아의 3D 설계 플랫폼 옴니버스와 연동해 다양한 물리 AI 애플리케이션을 지원합니다. 개발자들은 3D 시나리오를 생성하고 이를 사실적인 비디오로 변환할 수 있으며, 정책 모델 개발과 평가, 행동 예측, 다중 시뮬레이션 등을 수행할 수 있어 로봇 및 자율 주행과 같은 물리 AI 시스템의 개발을 가속화합니다. NVIDIA는 코스모스 플랫폼을 통해 기업과 개발자가 대규모 모델을 구축하는 데 필요한 모든 요소들을 갖추게 되었다고 자평하며 앞으로 개발자가 실제 시험과 관련된 위험과 비용 없이 통제된 환경에서 시스템을 시뮬레이션하고 테스트할 수 있는 가상 3D환경을 가질 수 있을 것이라고 설명합니다.

 

월드 모델의 가치

 월드 모델은 단순한 시뮬레이션을 넘어 아날로그 세상에서 배우고, 배운 것을 현실의 실제 문제를 해결할 수 있습니다. 예를 들어 월드 모델을 적용한 로봇들은 현실세계의 물리법칙을 이해하고 있어 돌발 상황에도 적절한 행동 방식을 추론할 수 있게 됩니다. 이러한 변화는 인간과 기계가 공존하기 위해 필수적인 요소가 될 것입니다. 기업의 신제품 개발 과정에서도 생산 전 과정을 모델 내에서 시뮬레이션할 수 있어 높은 완성도와 경제성을 추구할 수 있게 됩니다. 궁극적으로 LWM은 단순한 기술적 진보를 넘어, AI가 세상을 이해하고 상호작용하는 방식의 근본적인 변화를 가지고와 AI가 인간처럼 세상을 이해하고, 문제를 해결할 수 있는 일반인공지능(AGI)의 기반이 될 것입니다.

 

얀 르쿤 교수. (사진=세계 경제 포럼)
얀 르쿤 교수. (사진=세계 경제 포럼)

 

 얀 르쿤은 “현재의 AI들은 아직 진정한 의미의 이해, 기억, 직관, 추론능력을 갖추지 못했다”라고 지적합니다. 과연 월드 모델이 이러한 인공지능의 기술적 한계를 넘어 새로운 장을 여는 돌파구가 될지 무척 궁금합니다. 다만 NVIDIA의 코스모스 플랫폼을 학습시키는데 무려 2000만 시간의 데이터가 필요했다고 알려진 것처럼 월드모델을 학습시키는데 필요한 데이터의 양과 질의 문제가 남아있습니다. 또한 이 데이터들의 저작권 문제는 어떻게 풀어나갈지 등의 아직 풀어야 할 숙제가 있죠. 그럼에도 월드 모델에 많은 기업들이 투자하는 이유는 월드모델이 인간 수준의 AI로 가는 올바른 방향성을 제시하고 있기 때문입니다.

 

9dots consulting korea banner

 

-참고-

월드모델 논문 : https://arxiv.org/abs/1803.10122

 

World Models

We explore building generative neural network models of popular reinforcement learning environments. Our world model can be trained quickly in an unsupervised manner to learn a compressed spatial and temporal representation of the environment. By using fea

arxiv.org

월드랩스 : https://www.worldlabs.ai/blog

 

Generating Worlds

Today we're sharing our first step towards spatial intelligence: an AI system that generates 3D worlds from a single image.

www.worldlabs.ai

테크크런치 기사 : https://techcrunch.com/2024/12/14/what-are-ai-world-models-and-why-do-they-matter/

 

What are AI 'world models,' and why do they matter? | TechCrunch

World models are the newest talk around town. But what are they, and what do they have to do with today's AI?

techcrunch.com