아마존, 음성 AI ‘노바 소닉’ 출시… “오픈AI보다 80% 저렴”

2025-04-09 유덕규 기자

/아마존웹서비스(AWS)

아마존이 가성비를 내세운 새로운 생성형 음성 AI 모델인 ‘노바 소닉(Nova Sonic)’을 선보였다.

아마존은 새로운 음성 AI 모델인 노바 소닉을 8일(현지시간) 공개했다. 아마존에 따르면 노바 소닉은 가성비 높은 AI 음성 모델이다. 오픈AI의 GPT-4o보다 약 80% 저렴하다.

아마존은 이번에 발표한 노바 소닉이 성능 면에서도 우수하다고 설명했다. 아마존은 “음성을 보다 자연스럽게 처리하고 생성할 수 있다”면서 “오픈AI와 구글의 최신 음성 모델과 비슷한 성능을 자랑한다”고 설명했다.

아마존의 노바 소닉은 음성의 억양과 말투, 뉘앙스를 이해해 이용자들과 보다 원활한 커뮤니케이션을 지원한다. 또한 이용자가 웅얼거리거나 말을 잘못하거나 주위가 시끄러워도 사용자의 의도를 보다 정확하게 이해한다.

언어와 방언 등 음성 인식을 측정하는 벤치카크인 다국어 라이브리스피치(LibriSpeech)에서는 영어, 프랑스어, 이탈리아어, 독일어 및 스페인어에서 평균을 냈을 때 4.2%의 단어 오류율(WER)을 달성했다.

여러 참가자와의 시끄러운 상호 작용을 측정하는 또 다른 벤치마크인 AMI에서 아마존은 노바 소닉이 오픈AI의 GPT-4o-transcribe 모델보다 WER 측면에서 46.7% 더 정확한 것으로 나타났다. 노바 소닉은 또한 평균 인지 대기 시간이 1.09초로 업계 최고 수준의 속도를 자랑한다.

로히트 프라사드(Rohit Prasad) 아마존 인공지능 총괄 수석 부사장은 “앞으로 아마존이 이미지, 비디오, 음성 등 다양한 방식을 이해할 수 있는 AI 모델을 더 많이 출시할 계획”이라며 “노바 소닉을 시작으로 개발자가 구축할 수 있는 내부 AI 모델을 더 많이 제공하고자 한다”고 말했다.

한편, 노바 소닉은 아마존의 개발자 플랫폼인 ‘베드록(Bedrock)’을 통해 양방향 스트리밍 API로 제공되고 있다. 현재 아마존의 디지털 음성 비서인 ‘알렉사 플러스’에 일부 기능이 적용된 것으로 알려졌다.