[데일리포스트=김정은 기자] 마이크로소프트(Microsoft)가 자사 인공지능(AI) 음성비서 '코타나'의 음성인식 시스템 오류율을 속기사와 같은 수준으로 낮추는 데 성공했다.

음성인식을 통해 다양한 조작과 검색 등을 수행하는 기술은 이미 충분히 발전했지만 글로벌 IT기업들은 “음성을 얼마나 잘 알아들을 수 있느냐” 하는 문제에 주력하고 있다.

CNET재팬에 따르면 MS는 음성인식 시스템의 단어 오류율을 5.1%로 낮추는데 성공했으며 이는 지난해 5.9% 오류율에서 크게 개선한 것으로 인간 수준에 근접한 오류율이다.

사실 MS는 지난해 음성인식 오류율을 5.9%로 낮췄다며 당시 사람 수준에 도달했다고 대대적으로 발표한 바 있다.



그러나 IBM 연구원들이 자사 인공지능 기술 왓슨(Watson)의 최고 기록인 5.5% 오류율을 약간 웃도는 5.1%까지 도달 할 필요가 있다고 반박하고 나서면서 양 사가 미묘한 신경전을 펼친바 있다. 수치상으로는 5.1%는 MS가 IBM이 자랑했던 음성인식 기술 수준을 뛰어넘었음을 의미한다.

MS의 음성인식 시스템 측정은 지난해 테스트와 마찬가지로 수십 년 동안 음성인식 기술 벤치마크 툴로 활용되고 있는 전화통화 모음 ‘스위치보드(SWITCHBOARD)’를 사용했다. 이 테스트는 스포츠에서 정치까지 다양한 주제에 대한 대화를 문자화하는 것이다.

쉐동 황(Xuedong Huang) MS 기술연구원은 “음향모델링 개선을 위해 CNN-BLSTM (Convolutional Neural Network combined with Bidirectional Long-Short-Term Memory) 모델을 추가했다. "고 설명했다.

그는 또 "대화 세션의 모든 기록을 사용해 대화의 다음 흐름을 예측토록 했다"면서 "이를 통해 음성인식 시스템 언어모델을 강화하고 대화 주제와 문맥에 보다 효과적으로 대응할 수 있게 됐다”고 언급했다.

한편 MS측은 “중요한 성과를 이룬 것은 사실이나 음성인식이 다양한 억양과 말투에는 아직 충분하지 못하며 시끄러운 환경에서는 성능이 좋지 않다”고 언급했다.
저작권자 © 데일리포스트 무단전재 및 재배포 금지