ㅣ데일리포스트=김정은 기자ㅣ엔비디아, 매사추세츠공대(MIT), 교토 세이카대(精華) 공동 연구팀이 최대 4096×4096 해상도의 이미지를 몇 초 안에 생성할 수 있는 이미지 생성 AI '사나(Sana)'를 발표했다.
아래는 실제로 사나가 작성한 이미지 사례다. "정글 속 우주비행사, 한색 계열, 차분한 색상, 세밀하게, 8K"로 명령하면 아래와 같은 이미지를 생성할 수 있다.
다음은 "SANA라고 쓰여진 네온사인과 사이버펑크 고양이"라는 명령에 따라 생성한 이미지다.
사실적인 소녀의 인물사진을 요청하자 아래와 같은 이미지가 생성되었다.
사나 개발팀에 따르면 이미지를 8배까지만 압축할 수 있는 기존 오토인코더(autoencoder)와 달리 사나는 이미지를 최대 32배 압축 가능한 오토인코더로 훈련했다. 이를 통해 잠재적 토큰 수를 효과적으로 줄이면서 효율적인 훈련과 4K 초고해상도 이미지 생성을 실현했다.
또 오픈소스 대규모 언어모델 '젬마(GEMMA)'를 텍스트 인코더로 이용해 명령 프롬프트 이해와 추론 성능을 강화했다. 젬마는 뛰어난 텍스트 이해력으로 훈련 불안정성에 대처하면서 이미지와 텍스트 정렬을 개선할 수 있다.
게다가 샘플링 단계를 줄이기 위해 '플로우-DPM-솔버(Flow-DPM-Solver)' 구조를 도입해 샘플링 단계 수를 기존 28회~50회에서 14회~20회로 줄여 효율적인 캡션 라벨링 및 선택을 구현했다.
그 결과, 최신의 고성능 이미지 생성 AI 수준의 경쟁력을 가지면서도, 100배 이상 고속 이미지 생성이 가능하다.
개발팀에 따르면 파라미터 크기가 6억인 '사나-0.6B'는 메모리 용량이 16GB인 GPU 탑재 노트북에서도 1024×1024 해상도 이미지 생성에 1초도 걸리지 않는다.
아래는 사나의 이미지 생성에 걸리는 시간을 비교한 그래프다. 파라미터 크기가 16억인 '사나-1.6B'는 1024×1024 이미지를 1.2초에 생성할 수 있고, 4096×4096 이미지는 15.9초면 생성할 수 있다. 또 사나-0.6B는 1024×1024 이미지를 0.9초면 생성할 수 있고 4096×4096 이미지는 불과 9.6초에 생성한다.
사나와 각종 이미지 생성 AI의 성능을 비교한 표다. 사나의 각 모델이 처리량 측면에서 다른 이미지 생성 AI보다 우수한 성능을 기록하고 있다.
한편, 사나의 소스코드는 곧 공개될 예정이다.
