MS, 최대 90분 오디오 생성하는 AI ‘바이브보이스’ 공개
1.5B 버전, 깃허브에 오픈소스로 공개, 7B는 공개 예정
2025-08-27 유덕규 기자
26일(현지시간) 미국의 마이크로소프트(MS)가 최대 90분 길이의 오디오를 생성하는 AI 모델인 ‘바이브보이스(VibeVoice)’를 오픈소스로 공개했다.
바이브보이스는 텍스트를 팟캐스트와 같은 대화 오디오를 생성하도록 설계된 텍스트투스피치(TTS)모델이다. MS의 설명에 따르면 최대 4명의 화자가 등장하는 오디오를 최대 90분 길이로 제작이 가능하다. 또한 대화의 맥락과 자연스러운 턴테이킹(주고받는 대화)을 위해 대형언어모델(LLM)을 활용해 맥락을 검토한다.
이날 깃허브에 공개된 바이브보이스의 버전은 1.5B 버전이다. 7B 버전은 공개 예정이다. 각 버전은 파라미터 수를 뜻한다. 두 버전은 각각 대화 이해도나 음성 합성 품질과 기능, 활용 환경에서 차이가 있다. 1.5B 버전은 15억 파라미터 규모로 경량화 및 고속 합성에 초점을 맞춘 모델이다. 7B 버전은 1.5B 버전에 비해 더 높은 언어 이해도와 고품질 음향, 복잡한 감정 및 표현력이 강화됐다.
MS는 팟캐스트나 오디오북, 회의 등 비즈니스나 컨텐츠 적용을 무료로 가능하도록 했다. 다만 상업적, 실시간, 음성 인증 회피 등 특정 활용에는 제한을 두고 있다. 경쟁사 구글의 노트북LM과 같은 상업용 솔루션에 비해 오픈소스이면서 다중화자·고품질 구현이 강점으로 꼽힌다.