ⓒ데일리포스트=이미지 제공/Flickr
ⓒ데일리포스트=이미지 제공/Flickr

ㅣ데일리포스트=김정은 기자ㅣ호주와 중국 공동 연구팀이 대규모 언어모델(LLM)과 2D·3D 제작 소프트웨어 '블렌더'((blender)를 결합해 자연어로 입력한 문장을 적절히 해석해 고정밀 3D 콘텐츠를 생성하는 '3D-GPT'를 발표했다.

ⓒ데일리포스트=이미지 제공/논문사전공개사이트 '아카이브'(arXiv)
ⓒ데일리포스트=이미지 제공/논문사전공개사이트 '아카이브'(arXiv)

3D 모델과 텍스처를 생성하는 컴퓨터 그래픽 기술인 '절차적 모델링'(Procedural Modeling)은 효율적인 콘텐츠 생성의 유망 선택지로 주목받고 있다. 하지만 절차적 모델링 실행을 위해서는 규칙·알고리즘·파라미터 등 복잡한 내용에 대한 이해가 필요해 작업에 부담을 느끼는 제작자들도 있다. 

이에 연구팀은 명령 구동형 3D 모델링에 대규모 언어모델을 도입한 '3D-GPT'를 새롭게 개발했다. 3D-GPT는 대규모 언어모델이 '숙련된 문제 해결사' 역할을 맡고, 3D 모델링에 필요한 작업을 관리 가능한 영역으로 나눠 각각 적절한 에이전트가 작업을 수행하는 방식이다. 

ⓒ데일리포스트=이미지 제공/arXiv
ⓒ데일리포스트=이미지 제공/arXiv

3D-GPT는 크게 ▲태스크 디스패치(Task Dispatch) 에이전트 ▲개념화 에이전트 ▲모델링 에이전트로 구성된다. 태스크 디스패치 에이전트는 사람이 입력한 지시에 따라 후속 처리에 필요한 함수를 지시하고 나머지 두 에이전트 간의 협력을 촉진한다.

개념화 에이전트는 지시에는 포함되지 않았지만 3D 컨텐츠 생성에 필요한 기술을 보충하기 위한 추론을 수행한다. 또 모델링 에이전트는 블렌더 API를 호출하기 위한 파이썬(Python) 코드 생성 등의 처리를 담당한다. 

연구팀은 "이들 에이전트가 서로 협력해 사람이 입력한 내용에 대한 설명을 체계화하고 지시에 따라 텍스트를 동적으로 적용시키는 것"이라고 설명했다.

ⓒ데일리포스트=이미지 제공/arXiv
ⓒ데일리포스트=이미지 제공/arXiv

아래 영상은 3D-GPT에 입력한 텍스트와 생성된 3D 콘텐츠를 조합한 것이다. 높은 정확도로 3D 생성이 구현되고 있음을 알 수 있다.

 

3D 콘텐츠 제작을 위해 입력한 텍스트 내용은 다음과 같다.

The desert, an endless sea of shifting sands, stretched to the horizon, its ripping dunes catching the golden rays of the setting sun, creating an ever-changing landscape of shadows and light.

끝없이 이어지는 모래 바다인 사막이 지평선까지 뻗어있다. 물결치는 모래언덕이 석양의 금빛을 받아 그림자와 빛의 변화무쌍한 풍경을 만든다. 

연구팀은 "3D-GPT는 명령 해석과 실행을 통해 신뢰할 수 있는 결과를 도출할 뿐만 아니라, 디자이너와 효과적으로 협력할 수 있다. 아울러 블렌더와의 유기적인 연계로 조작 가능성을 확장했다"며 "이번 연구는 3D 모델링 분야에서의 대규모 언어모델의 잠재력을 강조하고, 장면 및 애니메이션 생성의 진보를 위한 기본 틀을 제공할 것"이라고 말했다.

저작권자 © 데일리포스트 무단전재 및 재배포 금지