KAIST는 노용만 전기및전자공학부 교수 연구팀의 박세진 연구원(박사과정)이 장시간 음성 생성이 가능한 음성언어모델(Spoken Language Model, SLM) ‘스피치SSM(SpeechSSM)’을 개발했다고 3일 밝혔다.
음성언어모델은 중간에 텍스트로 변환하지 않고 음성을 직접 처리함으로 인간 화자 고유의 음향적 특성을 활용할 수 있어 대규모 모델에서도 고품질의 음성을 빠르게 생성할 수 있다는 점이 큰 강점이다.
하지만 기존 모델은 음성을 아주 세밀하게 잘게 쪼개서 아주 자세한 정보까지 담는 경우, ‘음성 토큰 해상도’가 높아지고 사용하는 메모리 소비도 증가하는 문제로 인해 장시간 음성의 의미적, 화자적 일관성을 유지하기 어려웠다.
연구팀은 이러한 문제를 해결하기 위해 하이브리드 상태공간 모델을 사용한 음성 언어 모델인‘스피치SSM’를 개발해 긴 음성 시퀀스를 효율적으로 처리하고 생성할 수 있게 설계했다
스피치SSM은 음성 데이터를 짧은 고정된 단위(윈도우)로 나눠 각 단위별로 독립적으로 처리하고, 전체 긴 음성을 만들 경우에는 다시 붙이는 방식을 활용해 쉽게 긴 음성을 만들 수 있어 무한한 길이의 음성 시퀀스를 효과적으로 처리할 수 있게 했다.
또한 음성 생성 단계에서는 한 글자, 한 단어 차례대로 천천히 만들어내지 않고, 여러 부분을 한꺼번에 빠르게 만들어내는 ‘비자기회귀’방식의 오디오 합성 모델을 사용해 고품질의 음성을 빠르게 생성할 수 있게 했다.
기존은 10초 정도 짧은 음성 모델을 평가했지만, 연구팀은 16분까지 생성할 수 있도록 자체 구축한 새로운 벤치마크 데이터셋인 을 기반으로 음성을 생성하는 평가 태스크를 새롭게 만들었다.
새로운 평가를 통해 스피치SSM 음성 언어 모델로 생성된 음성은 긴 시간 생성에도 불구하고 초기 프롬프트에서 언급된 특정 인물이 지속적으로 등장하며 맥락적으로 일관된 새로운 인물과 사건들이 자연스럽게 전개되는 모습을 확인했다.
KAIST 박세진 박사과정생은 “기존 음성 언어 모델은 장시간 생성에 한계가 있어, 실제 인간이 사용하도록 장시간 음성 생성이 가능한 음성 언어 모델을 개발하는 것이 목표였다”며 “다양한 음성 콘텐츠 제작과 음성비서 등 음성 AI 분야에 크게 기여할 것으로 기대한다”라고 밝혔다.
이번 연구결과는 박세진 박사과정 학생이 구글 딥마인드와 협력해 국제 머신러닝 학회(ICML) 2025에서 오는 16일 소개될 예정이다.