실시간 뉴스



KT, LLM 성능 '데이터 큐레이션'으로 끌어올렸다


'믿:음 K 2.5 프로' 테크리포트 공개⋯대량 데이터 대신 품질 중심 선별·합성 전략 적용

[아이뉴스24 서효빈 기자] KT가 자사의 대형언어모델(LLM) 성능을 데이터 큐레이션을 통해 끌어올린 것으로 나타났다. 대량 데이터 확보 대신 품질 중심 선별과 합성 데이터 전략이 적용된 것이다.

23일 통신업계에 따르면 KT는 논문 사전공개 사이트 '아카이브(arXiv)'에 '믿:음 K 2.5 프로'의 학습 구조와 데이터 구축 방식을 담은 테크리포트를 공개했다.

'믿:음 K 2.5 프로'는 최근 MWC26서 KT가 선보인 새로운 LLM 모델이다. 글로벌 AI 평가 플랫폼 AAII v3.0에서 국내 모델 중 최고 성능을 기록하고, 에이전틱 AI 성능 지표인 '타우 스쿠어 벤치'에서 87%를 기록하며 과업 수행 능력을 입증했다.

데이터 정제 파이프라인 [사진=arxiv]
데이터 정제 파이프라인 [사진=arxiv]

리포트에 따르면 KT는 데이터를 대량으로 수집하는 대신 품질을 기준으로 선별하는 방식을 적용했다. LLM 기반 평가 모델과 코드 구조 분석(AST)을 활용해 저품질 데이터를 걸러내고, 학습에 적합한 데이터만 남기는 '품질 중심 큐레이션'을 구축한 것으로 나타났다.

KT는 리포트에서 "데이터 전략이 양을 늘리는 방식에서 품질 중심 선별 방식으로 전환됐다"고 설명했다.

코드 데이터는 언어 분류, 품질 평가, 실행 가능성 검증, 난이도 분류 등 단계별 필터링을 거쳐 학습에 활용된다. 이를 통해 데이터 노이즈를 줄이고, 추론 학습에 적합한 데이터만 선별했다는 설명이다.

데이터가 부족한 영역은 AI로 직접 생성해 보완했다. 수학과 코드 등 고난도 추론이 필요한 분야는 실제 데이터가 제한적인 만큼, 문제와 풀이 과정을 함께 생성하는 '합성 데이터(gap-filling)' 전략을 적용했다.

모델 설계 역시 단순 질의응답을 넘어 추론 중심으로 확장됐다. 다단계 추론과 장문 이해, 외부 도구 활용 등 복잡한 문제 해결 능력을 강화하는 방향으로 학습 구조를 설계했다. 이를 위해 문제 해결 과정을 단계별로 학습하는 데이터 구성을 적용하고, 단순 질의응답이 아닌 추론 경로를 함께 학습하도록 설계했다.

KT 관계자는 "AI는 문서 요약이나 검색 등 보조적 도구를 넘어 실제 업무를 수행하는 실행 주체로 진화하고 있다"며 "데이터와 모델, 인프라를 통합한 전략을 바탕으로 기업 고객의 AI 전환을 지원하겠다"고 밝혔다.

/서효빈 기자(x40805@inews24.com)




주요뉴스



alert

댓글 쓰기 제목 KT, LLM 성능 '데이터 큐레이션'으로 끌어올렸다

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중

뉴스톡톡 인기 댓글을 확인해보세요.



포토뉴스