MS, 최대 90분 오디오 생성하는 AI ‘바이브보이스’ 공개

1.5B 버전, 깃허브에 오픈소스로 공개, 7B는 공개 예정

26일(현지시간) 미국의 마이크로소프트(MS)가 최대 90분 길이의 오디오를 생성하는 AI 모델인 ‘바이브보이스(VibeVoice)’를 오픈소스로 공개했다.

바이브보이스는 텍스트를 팟캐스트와 같은 대화 오디오를 생성하도록 설계된 텍스트투스피치(TTS)모델이다. MS의 설명에 따르면 최대 4명의 화자가 등장하는 오디오를 최대 90분 길이로 제작이 가능하다. 또한 대화의 맥락과 자연스러운 턴테이킹(주고받는 대화)을 위해 대형언어모델(LLM)을 활용해 맥락을 검토한다.

이날 깃허브에 공개된 바이브보이스의 버전은 1.5B 버전이다. 7B 버전은 공개 예정이다. 각 버전은 파라미터 수를 뜻한다. 두 버전은 각각 대화 이해도나 음성 합성 품질과 기능, 활용 환경에서 차이가 있다. 1.5B 버전은 15억 파라미터 규모로 경량화 및 고속 합성에 초점을 맞춘 모델이다. 7B 버전은 1.5B 버전에 비해 더 높은 언어 이해도와 고품질 음향, 복잡한 감정 및 표현력이 강화됐다.

MS는 팟캐스트나 오디오북, 회의 등 비즈니스나 컨텐츠 적용을 무료로 가능하도록 했다. 다만 상업적, 실시간, 음성 인증 회피 등 특정 활용에는 제한을 두고 있다. 경쟁사 구글의 노트북LM과 같은 상업용 솔루션에 비해 오픈소스이면서 다중화자·고품질 구현이 강점으로 꼽힌다.

유덕규 기자 udeok@chosun.com

다른기사 보기

개의 댓글

BEST댓글

BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.

댓글삭제

삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?

댓글수정

댓글 수정은 작성 후 1분내에만 가능합니다.

내 댓글 모음

예타 폐지 후 ‘사전기획점검’ 도입… KISTEP “속도 확보하되 사업 남발 막을 것”

오픈AI, 챗GPT 쇼핑 리서치 기능으로 이커머스 수요 대응

모빌린트, NPU 기술 앞세워 日 엣지 AI 시장 공략 나서

AMD·자이프라, 대규모 AI 모델 ‘ZAYA1’ 지표 입증

‘Good AI Awards 2025’ 수상 기업 내달 3일 공개… 업계 관심 집중

[덕규의 AIways] AI 동물이 마스코트가 될 수 있었던 이유

[AI 버블 ②] ‘혁명 혹은 거품’ 현실 직면하는 2026년 AI 시장

포티투마루, 'AX 성공방정식 2026'서 AX 혁신 전략 논한다

MS, 최대 90분 오디오 생성하는 AI ‘바이브보이스’ 공개

1.5B 버전, 깃허브에 오픈소스로 공개, 7B는 공개 예정