[LG AI 토크콘서트 2025] AI 난제 ‘데이터 부족’ 해결사 ‘엑사원 데이터 파운드리’의 정체

60명→1명, 3개월→34시간 생산성 혁신 달성 할루시네이션 자동 검증으로 품질 균일성 확보 단순 모델 제공 넘어 기업 도메인 지식 반영 지원

2025-07-22     김동원 기자
최정규 LG AI연구원 AI에이전트 그룹장이 엑사원 데이터 파운드리를 소개하고 있다. /김동원 기자

전문가 60명이 3개월간 밤낮없이 매달려야 하는 일을 단 1명이 34시간 만에 해치운다? 불가능해 보이는 이 일이 현실이 됐다. LG AI연구원이 공개한 ‘엑사원(EXAONE) 데이터 파운드리’의 얘기다. 그동안 AI 도입을 가로막던 장벽인 ‘데이터 부족’ 문제에 해답을 제시한 기술로 평가된다.

◇ “AI가 AI를 가르친다” 데이터 생성도 자동화

LG AI연구원은 22일 서울 강서구 마곡 LG사이언스파크에서 열린 ‘LG AI 토크 콘서트 2025’에서 AI 기반 데이터 자동 생성 및 평가 학습 플랫폼인 엑사원 데이터 파운드리를 공개했다고 발표했다.

최정규 LG AI연구원 AI에이전트 그룹장은 “AI 기술을 기업에 적용하기에 가장 큰 문제는 특화 데이터 확보”라며 “기업 전용 모델 개발 시 학습에 필요한 충분한 데이터를 확보하기에 많은 시간과 인력이 필요하고, 좋은 품질의 데이터를 확보하기 위해 외부 전문가를 고용하자니 기업의 핵심적인 데이터 외부 유출 등에 보안 이슈가 존재한다”고 설명했다.

엑사원 데이터 파운드리는 이 문제를 AI로 해결한다. 실제 산업 현장 문서 셋을 지정해 업로드하면 사용자들이 원하는 답변 스타일을 몇 번의 클릭으로 선택할 수 있다. 그러면 자동으로 이 모든 셋을 기반으로 파인튜닝 데이터셋을 만들어준다.

품질 관리 측면도 우수하다. AI로 만들어진 데이터셋은 원하는 품질로 생성되었는지, 혹시 정보 누락이나 할루시네이션이 발생하지 않았는지 자동으로 검토하고 그 결과를 보여준다. 또 만들어진 데이터셋으로 바로 파인튜닝을 진행할 수 있게 지원한다.

이러한 데이터셋 자동화는 쿼리 제너레이션, 앤서 제너레이션, 앤서 이밸류에이터라는 여러 AI 에이전트의 협업으로 구현된다. AI가 AI를 학습시킬 데이터를 만드는 시대가 열린 것이다.

◇ 국민연금공단도 인정한 성능… 전문가보다 정확한 답변

엑사원 데이터 파운드리의 실력은 실제 적용 사례에서 입증됐다. 대표 사례가 국민연금공단과의 협업이다.

최 그룹장에 따르면 ‘강의 근로 계약과 실제 강의 일정이 다른 경우 취득 신고 대상에 해당되는지’에 관한 복잡한 연금 업무 질문에서 그 차이가 명확히 드러났다. 이 질문의 답은 ‘3개월 3개월 이상 근로 계약이 존재하는 경우에는 실제 근로 기간과 관계없이 신고 대상’이다. 여기서 일반적으로 누구나 다운받을 수 있는 모델은 ‘실제 근로 제공 기간에 근거하여 취득 신고 대상이 아니다’라는 오답을 냈다. 반면 데이터 파운드리로 튜닝한 모델은 ‘근로계약서상 계약 기간을 근거로 취득 신고 대상이다’라는 정답을 명확히 제시했다.

국민연금공단 측의 전문가 평가 결과도 우수했다. 데이터 파운드리에서 생성된 데이터 품질과 튜닝된 모델의 정확도가 글로벌 경쟁 모델 대비 우수한 것으로 평가됐다. 특히 엑사원 데이터 파운드리로 튜닝한 엑사원 모델이 이전보다 25% 수준의 전문가 선호도 향상이 있음을 확인했다.

최 그룹장은 “특정 산업 특화 추론 테스트에서도 튜닝 이후 훨씬 높은 정확도를 보여준다는 것도 확인할 수 있었다”며 “실제 국민연금공단 측의 전문가 평가 결과 데이터 파운드리에서 생성된 데이터 품질과 튜닝된 모델의 정확도가 글로벌 경쟁 모델 대비 우수한 것으로 평가됐다”고 강조했다.

◇ 단순 모델 제공 넘어 기업 맞춤형 AI 시대 개막

엑사원 데이터 파운드리의 진짜 가치는 생산성 혁신에 있다. 최 그룹장에 따르면, 과거 데이터는 도메인 전문가 60여 명이 3개월 작업해서 2200개 정도를 생성할 수 있었다. 그마저도 사람마다 편차가 커서 그중 절반 정도를 버릴 수밖에 없었다.

하지만 엑사원 데이터 파운드리를 사용할 경우 전문가 1명이 34시간만 작업하면 1만 1000개의 데이터를 생성할 수 있다. 또 균일하게 높은 품질의 데이터를 확보하는 것도 가능하다. 시간으로 따지면 약 200배, 인력으로는 60배, 품질 면에서는 기존 50% 폐기율을 거의 0%로 줄인 혁신적 성과다.

엑사원 데이터 파운드리 서비스는 데이터 생성을 넘어서 모델의 자동 튜닝까지 제공할 수 있도록 준비하고 있다. 앞으로 LG 계열사들과 파트너사를 통해서 고객들을 만날 예정이다.

최 그룹장은 “단순 모델 제공을 넘어 기업의 도메인 지식이 반영된 고성능 AI를 신속하게 구현하도록 지원하는 것이 엑사원 데이터 파운드리의 핵심 가치”라고 강조했다.