3초 음성 샘플만으로 음성 특징·감정표현·음향 환경까지 복제

ⓒ데일리포스트=이미지 제공/Flickr

ㅣ데일리포스트=김정은 기자ㅣ마이크로소프트(MS)가 새로운 음성 합성 인공지능(AI) 모델인 '발리(VALL-E)'를 발표했다. 

고품질 음성 합성 애플리케이션인 발리는 단 3초의 음성 샘플로 사람의 목소리를 충실하게 시뮬레이션하며, 한 번 학습한 데이터는 음성뿐만 아니라 감정 톤이나 녹음 환경까지 재현한 복제 음성을 생성할 수 있다. 또 녹음한 내용을 텍스트 원고로 변경해 원래 말하지 않은 내용을 추가해 음성 편집하거나, 다른 인공지능 모델과 조합해 오디오 콘텐츠를 만들 수도 있다. 

ⓒ데일리포스트=이미지 제공/MS

MS는 발리를 '뉴럴 코덱 언어 모델'이라고 칭하고 있다. 일반적인 음성 합성 모델의 '파형 조작을 통한 음성 합성' 방법과는 달리, '텍스트와 음향 프롬프트에서 개별 음성 코덱 코드를 생성하는' 구조를 채택하고 있다. 

이는 메타가 2022년 10월 발표한 인코덱(EnCodec) 기술을 기반으로 하고 있다. 사람의 목소리를 분석한 정보를 인코덱을 통해 개별 요소인 '토큰'으로 분해하고, 그 목소리가 3초간의 음성 샘플 이외의 문구를 말했을 때 어떻게 들리는지를 학습 데이터를 통해 일치시켜 나가는 방식이다. 

데모 페이지에서 발리로 실제 생성한 음성을 들을 수 있다. 'Speaker Prompt'는 발리가 학습하는 샘플용 음성으로 왼쪽에 기록된 텍스트와는 전혀 다른 내용을 아주 짧은 시간 말한다. 'Ground Truth' 음성은 샘플 음성과 동일인이 왼쪽에 적힌 텍스트를 읽은 정답 음성이다. 또 'Baseline'이 기존 인공지능 모델로 작성한 합성 음성이며, 'VALL-E'가 발리로 생성한 합성 음성이다.

ⓒ데일리포스트=이미지 제공/MS

실제로 비교해 보면 'Baseline'과 'VALL-E'의 차이는 명확하다. 'Baseline'은 소음이 들어간 느낌의 음성인 반면, 'VALL-E'는 'Ground Truth'와 비교해도 어색함이 없고 음성에 따라서는 호흡 타이밍까지 'Ground Truth'와 일치한다.

특히 발리는 화자 목소리의 특징과 감정 표현, 나아가 샘플의 음향 환경까지 모방할 수 있다. 가령 샘플이 전화 음성이라면 합성 음성도 전화의 음향 특성이나 주파수 특성을 재현하는 식이다.  

한편, MS는 범죄 악용 위험성을 고려해 발리를 아직 대중에 공개하지 않았다. 이러한 우려에 대해 MS는 "발리는 화자의 동일성을 유지한 채 음성을 합성할 수 있어 잠재적 위험을 내포할 가능성이 있다. 이러한 위험을 줄이기 위해 음성 클립이 발리로 합성된 것인지를 판별하는 검출 모델을 구축할 수 있다. 또 모델의 개발 과정에서 MS가 정한 '책임 있는 AI의 기본 원칙'을 실천해 갈 예정"이라고 밝혔다. 

저작권자 © 데일리포스트 무단전재 및 재배포 금지