최종편집:2025-11-26 07:49 (수)
실시간
MS, 최대 90분 오디오 생성하는 AI ‘바이브보이스’ 공개

MS, 최대 90분 오디오 생성하는 AI ‘바이브보이스’ 공개

  • 기자명 유덕규 기자
  • 입력 2025.08.27 11:08
  • 0
  • 본문 글씨 키우기
이 기사를 공유합니다

1.5B 버전, 깃허브에 오픈소스로 공개, 7B는 공개 예정

/깃허브
/깃허브

26일(현지시간) 미국의 마이크로소프트(MS)가 최대 90분 길이의 오디오를 생성하는 AI 모델인 ‘바이브보이스(VibeVoice)’를 오픈소스로 공개했다.

바이브보이스는 텍스트를 팟캐스트와 같은 대화 오디오를 생성하도록 설계된 텍스트투스피치(TTS)모델이다. MS의 설명에 따르면 최대 4명의 화자가 등장하는 오디오를 최대 90분 길이로 제작이 가능하다. 또한 대화의 맥락과 자연스러운 턴테이킹(주고받는 대화)을 위해 대형언어모델(LLM)을 활용해 맥락을 검토한다.

/깃허브
/깃허브

이날 깃허브에 공개된 바이브보이스의 버전은 1.5B 버전이다. 7B 버전은 공개 예정이다. 각 버전은 파라미터 수를 뜻한다. 두 버전은 각각 대화 이해도나 음성 합성 품질과 기능, 활용 환경에서 차이가 있다. 1.5B 버전은 15억 파라미터 규모로 경량화 및 고속 합성에 초점을 맞춘 모델이다. 7B 버전은 1.5B 버전에 비해 더 높은 언어 이해도와 고품질 음향, 복잡한 감정 및 표현력이 강화됐다.

MS는 팟캐스트나 오디오북, 회의 등 비즈니스나 컨텐츠 적용을 무료로 가능하도록 했다. 다만 상업적, 실시간, 음성 인증 회피 등 특정 활용에는 제한을 두고 있다. 경쟁사 구글의 노트북LM과 같은 상업용 솔루션에 비해 오픈소스이면서 다중화자·고품질 구현이 강점으로 꼽힌다.

저작권자 © THE AI 무단전재 및 재배포 금지
관련기사
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
모바일버전