실시간 뉴스



[지금은 과학] 인공지능 데이터 구축비용, 최소화하는 방법 찾았다


KAIST 연구팀, 비용 줄이는 데이터 정제 기술 개발

[아이뉴스24 정종오 기자] 인공지능(AI) 데이터를 구축할 때 비용을 최소화할 수 있는 방법이 나왔다.

최근 다양한 분야에서 AI 심층 학습(딥러닝) 기술을 활용한 서비스가 급속히 증가하고 있다. 서비스 구축을 위해서 AI는 심층신경망을 훈련해야 한다. 이를 위해서는 충분한 훈련 데이터를 준비해야 한다. 훈련 데이터에 정답지를 만드는 레이블링(labeling) 과정이 필요하다(고양이 사진에 ‘고양이’라고 정답을 적어줌).

이 과정은 일반적으로 수작업으로 진행한다. 엄청난 노동력과 시간적 비용이 들어간다. 훈련 데이터 구축비용을 최소화하는 방법 개발이 요구되고 있다.

KAIST 연구팀에서 개발한 ‘메타 질의 네트워크’ 방법론의 동작 개념도. 추가적 신경망을 도입해 메타학습을 통해 순도-정보도의 최적 균형을 추정할 수 있도록 했다. [사진=KAIST]

한국과학기술원(KAIST, 총장 이광형)는 전산학부 이재길 교수 연구팀이 심층 학습 훈련 데이터 구축비용을 최소화할 수 있는 새로운 데이터 동시 정제, 선택 기술을 개발했다고 12일 발표했다.

일반적으로 심층 학습용 훈련 데이터 구축 과정은 수집, 정제, 선택과 레이블링 단계로 이뤄진다. 수집 단계에서는 웹, 카메라, 센서 등으로부터 대용량의 데이터가 정제되지 않은 채로 수집된다.

수집된 데이터에는 목표 서비스와 관련이 없어서 주어진 레이블에 해당하지 않는 분포 외(out-of-distribution) 데이터가 포함된다(동물 사진을 수집할 때 재규어 ‘자동차’가 포함). 이러한 분포 외 데이터는 데이터 정제 단계에서 정제돼야 한다.

모든 정제된 데이터에 정답지를 만들기 위해서는 막대한 비용이 소모되는데, 이를 최소화하기 위해 심층 학습 성능 향상에 가장 도움이 되는 훈련 데이터를 먼저 선택해 레이블링하는 능동 학습(active learning)이 큰 주목을 받고 있다.

정제와 레이블링을 별도로 진행하는 것은 데이터 검사 측면에서 중복 비용을 초래한다. 아직 정제되지 않고 남아 있는 분포 외 데이터가 레이블링 단계에서 선택된다면 레이블링 노력을 낭비할 수 있다.

이재길 교수팀이 개발한 기술은 훈련 데이터 구축 단계에서 데이터의 정제와 선택을 동시에 수행해 심층 학습용 훈련 데이터 구축비용을 최소화할 수 있도록 해준다.

연구팀이 개발한 메타학습 방법론을 ‘메타 질의 네트워크’라고 이름 붙였다. 이미지 분류 문제에 대해 다양한 데이터와 광범위한 분포 외 데이터 비율에 걸쳐 방법론을 검증했다.

그 결과, 기존 최신 방법론과 비교했을 때 최대 20% 향상된 최종 예측 정확도를 높였다. 모든 범위의 분포 외 데이터 비율에서 일관되게 최고 성능을 보였다. `메타 질의 네트워크'의 최적 균형 분석을 통해 분포 외 데이터의 비율이 낮고 현재 심층신경망의 성능이 높을수록 정보도에 높은 가중치를 둬야 함을 연구팀은 밝혀냈다.

KAIST 데이터사이언스대학원에 재학 중인 박동민 박사과정 학생이 제1 저자, 신유주 박사과정, 이영준 박사과정 학생이 제2, 제4 저자로 각각 참여한 이번 연구(논문명 : Meta-Query-Net: Resolving Purity-Informativeness Dilemma in Open-set Active Learning)는 국제학술대회 ‘신경정보처리시스템학회(NeurIPS) 2022’에서 오는 12월 발표될 예정이다.

연구팀을 지도한 이재길 교수는 “이 기술이 텐서플로우(TensorFlow) 혹은 파이토치(PyTorch)와 같은 기존의 심층 학습 라이브러리에 추가되면 기계 학습, 심층 학습 학계에 큰 파급효과를 낼 수 있을 것ˮ이라고 말했다.

/정종오 기자(ikokid@inews24.com)




주요뉴스



alert

댓글 쓰기 제목 [지금은 과학] 인공지능 데이터 구축비용, 최소화하는 방법 찾았다

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중

뉴스톡톡 인기 댓글을 확인해보세요.



포토뉴스