알리바바, 오픈소스 영상 AI로 숏폼 공략

오픈소스 영상 생성 모델 ‘Wan2.1-FLF2V-14B’ 공개

2025-04-24 김동원 기자

알리바바 클라우드의 오픈소스 영상 생성 모델 ‘Wan2.1-FLF2V-14B’로 제작한 영상 모습. /알리바바 클라우드

알리바바 클라우드가 새로운 오픈소스 영상 생성 모델 ‘Wan2.1-FLF2V-14B’를 공개했다. 해당 모델은 시작 프레임과 종료 프레임을 입력값으로 받아 그 사이 장면을 자연스럽게 연결하는 방식으로, 직관적이고 정밀한 영상 생성이 가능하다는 평가를 받고 있다.

이번에 공개된 Wan2.1-FLF2V-14B는 알리바바 클라우드의 파운데이션 모델 시리즈 ‘Wan2.1’의 확장형 모델로, 텍스트와 이미지 입력을 바탕으로 고화질 이미지 및 영상을 생성하도록 최적화했다. 해당 모델은 오픈소스 플랫폼인 허깅페이스(Hugging Face), 깃허브(GitHub), 알리바바 클라우드의 자체 커뮤니티 플랫폼 모델스코프(ModelScope)를 통해 누구나 자유롭게 활용할 수 있다.

특히 영상 생성 과정에서 ‘제어 조정 메커니즘(Control Adjustment Mechanism)’을 도입한 점이 주목된다. 사용자가 제공한 첫 프레임과 마지막 프레임의 의미 정보를 영상 생성 전반에 반영함으로써, 시각적 일관성을 유지하면서도 자연스럽고 사실적인 전환이 가능하다. 해당 기술은 720p 해상도 기준 5초 분량 영상을 무료로 생성할 수 있도록 공식 웹사이트에서 지원 중이다.

알리바바 클라우드는 “복잡한 움직임과 장면 변화도 안정적으로 구현 가능한 수준의 프레임 연결 기술은 숏폼 콘텐츠 제작자나 커머셜 애플리케이션 개발자에게 새로운 도구가 될 것”이라고 설명했다. 실제로 이 모델은 다양한 명령어에 대한 정확한 수행력과 픽셀 표현력 면에서 우수한 평가를 받으며, 영상 생성 벤치마크 플랫폼인 ‘VBench 리더보드’에서 종합 1위에 오른 바 있다.

한편 알리바바 클라우드는 대규모 오픈소스 생태계 조성에 앞장서고 있다. 지난 2월에는 Wan2.1 시리즈 내 4종 모델을 오픈소스로 공개했으며, 현재까지 허깅페이스와 모델스코프에서 누적 220만 건 이상 다운로드된 것으로 알려졌다. 또한 2023년 8월에는 자체 개발한 대규모 언어모델 ‘큐원-7B(Qwen-7B)’를 최초로 오픈소스로 공개하며 글로벌 LLM(대규모 언어모델) 리더보드에서 상위권을 유지 중이다.

지금까지 알리바바 클라우드는 200개 이상의 생성형 AI 모델을 오픈소스로 공개했고, 허깅페이스 기반으로 파생된 모델 수만 10만 개에 달한다. 글로벌 기술 기업들 사이에서 생성형 AI와 영상 생성 AI를 둘러싼 경쟁이 치열해지는 가운데, 알리바바의 이 같은 행보는 ‘소버린 AI’ 전략과도 맞닿아 있다는 분석이 나온다.