ⓒ데일리포스트=이미지 제공/MS

ㅣ데일리포스트=김정은 기자ㅣ미국 스타트업 오픈AI가 개발한 대화형 인공지능(AI) 챗GPT는 높은 성능으로 광범위한 분야의 업무에 사용되고 있다. 챗GPT는 대화용으로 개발된 인공지능(AI)이며 이미지 생성 기능은 탑재되어 있지 않다.

이런 가운데 마이크로소프트(MS) 리서치 아시아 연구팀이 챗GPT에 이미지 생성 기능을 탑재한 '비주얼 챗GPT(Visual Chat GPT)'를 발표했다.  MS는 2019년 오픈AI에 10억 달러(1조 2000억 원)를 투자했고, 2023년 1월 100억 달러(12조 원)로 추정되는 금액을 추가 투자한다고 발표한 바 있다.

ⓒ데일리포스트=이미지 제공/오픈AI

기존의 '스테이블 디퓨전'과 같은 이미지 생성 AI는 문장이나 참고 이미지를 프롬프트로 입력해 원하는 이미지를 생성할 수 있다. 그러나 이미지 생성 AI를 능숙하게 사용하기 위해서는 ▲모델 데이터 ▲해상도 ▲샘플링 횟수 등 다양한 요소를 적절히 설정할 필요가 있으며 복잡한 프롬프트 구축 등 조작 과정이 번거롭다. 

이에 MS 리서치 아시아 연구팀은 기존 챗GPT를 기반으로 한 대화형 AI '비주얼 챗GPT'를 새롭게 개발했다. 비주얼 챗GPT는 입력 텍스트나 프롬프트를 통한 대화 방식으로 이미지 생성이 가능하다. 

연구팀은 챗GPT에 스테이블 디퓨전 및 비주얼 트랜스포머와 같은 다양한 시각적 기반 모델(VFM)을 추가했다. 이와 함께 챗GPT와 VFM 기능 간 갭을 메우기 위해서 ▲입·출력 형식을 지정하고 각 VFM 기능에 대해 챗GPT에 통지 ▲다양한 VFM 사용 이력 및 우선순위 등을 참고로 이미지 처리 ▲PNG 이미지나 심도 이미지 등 다양한 시각 정보를 언어 형식으로 변환해 챗GPT 처리를 지원할 것 등 프롬프트 관리자를 도입했다. 

아래가 비주얼 챗GPT의 아키텍처 개요다. 사용자가 비주얼 챗GPT에 이미지를 올리거나 대화 방식으로 요청하면 이를 분석해 새로운 이미지로 만들어 준다.

ⓒ데일리포스트=이미지 제공/MS

가령 Q1의 소파 이미지를 Q2에서는 "이미지 속 소파를 책상으로 바꾸고, 수채화풍으로 바꿔줘"라고 요청한다. 사용자 쿼리를 받으면 챗 GPT 시스템 설명 및 대화 내역을 포함해  다양한 VFM 중 선택 도구를 사용하기 위한 프롬프트를 작성해 챗 GPT 상에 입력하는 방식이다.

비주얼 챗GPT를 실행하면 다음과 같다. 비주얼 챗GPT에 "Could you generate a cat for me?(고양이를 만들어줘)"라고 입력하면 비주얼 챗GPT는 즉시 고양이 이미지를 생성한다. 

또 "could you replace the cat to a dog and then remove a book? (고양이를 개로 바꾸고 책을 제외한 이미지를 만들어줄래?)"라고 입력하면 개만 나오는 이미지가 생성된다. 

ⓒ데일리포스트=이미지 제공/MS

캐니 에지(Canny Edge) 검출이나 색상 변경 등의 요청도 가능하다. 

ⓒ데일리포스트=이미지 제공/MS

연구팀은 "VFM 실패나 프롬프트 불규칙성으로 만족스러운 생성 결과를 가져오지 못할 수 있어 우려된다. 생성되는 이미지가 작성자의 의도와 일치하는 단일 자기 수정 모듈이 필요하다. 또 모듈 도입으로 생성 시간이 증가할 가능성도 있어 추가 연구를 이어갈 계획이다"라고 언급했다. 

이번에 개발한 비주얼 챗GPT 소스 코드는 오픈소스 공유 플랫폼 ‘깃허브(GitHub)’에 공개되어 있다. 참고로 비주얼 챗GPT 사용을 위해서는 챗GPT의 API가 필요하다.

저작권자 © 데일리포스트 무단전재 및 재배포 금지