음성인식을 통해 다양한 조작과 검색 등을 수행하는 기술은 이미 충분히 발전했지만 글로벌 IT기업들은 “음성을 얼마나 잘 알아들을 수 있느냐” 하는 문제에 주력하고 있다.
CNET재팬에 따르면 MS는 음성인식 시스템의 단어 오류율을 5.1%로 낮추는데 성공했으며 이는 지난해 5.9% 오류율에서 크게 개선한 것으로 인간 수준에 근접한 오류율이다.
사실 MS는 지난해 음성인식 오류율을 5.9%로 낮췄다며 당시 사람 수준에 도달했다고 대대적으로 발표한 바 있다.
그러나 IBM 연구원들이 자사 인공지능 기술 왓슨(Watson)의 최고 기록인 5.5% 오류율을 약간 웃도는 5.1%까지 도달 할 필요가 있다고 반박하고 나서면서 양 사가 미묘한 신경전을 펼친바 있다. 수치상으로는 5.1%는 MS가 IBM이 자랑했던 음성인식 기술 수준을 뛰어넘었음을 의미한다.
MS의 음성인식 시스템 측정은 지난해 테스트와 마찬가지로 수십 년 동안 음성인식 기술 벤치마크 툴로 활용되고 있는 전화통화 모음 ‘스위치보드(SWITCHBOARD)’를 사용했다. 이 테스트는 스포츠에서 정치까지 다양한 주제에 대한 대화를 문자화하는 것이다.
쉐동 황(Xuedong Huang) MS 기술연구원은 “음향모델링 개선을 위해 CNN-BLSTM (Convolutional Neural Network combined with Bidirectional Long-Short-Term Memory) 모델을 추가했다. "고 설명했다.
그는 또 "대화 세션의 모든 기록을 사용해 대화의 다음 흐름을 예측토록 했다"면서 "이를 통해 음성인식 시스템 언어모델을 강화하고 대화 주제와 문맥에 보다 효과적으로 대응할 수 있게 됐다”고 언급했다.
한편 MS측은 “중요한 성과를 이룬 것은 사실이나 음성인식이 다양한 억양과 말투에는 아직 충분하지 못하며 시끄러운 환경에서는 성능이 좋지 않다”고 언급했다.
김정은 기자
oliver3@thedailypost.kr