
[아이뉴스24 김정수 기자] 8명으로 구성된 개발 팀은 처음에는 회사에서도 큰 주목을 받지 못했다. 몇몇 개발자는 실험 코드를 커피숍이나 집에서 작업했다. 실험적인 프로젝트 정도로 생각했기 때문이다.
하지만 점점 구조를 튜닝하면서 성능이 올라갔고, 최종 완성된 트랜스포머는 AI가 사람의 언어를 이해하는 방식을 근본적으로 바꾸는 혁신적인 모델로 변모한다.
예전 언어 모델은 문장을 한 단어씩 읽었으나, 트랜스포머는 문장의 모든 단어를 한번에 읽기 때문에 빠르게 동작한다. 문장 안의 단어들 사이의 연관성을 파악해 문맥을 잘 이해할 수 있으며, 병렬 처리가 가능하고, 복잡하고 긴 문장에 대한 학습이 가능하다.
이처럼 완성된 트랜스포머를 기반으로 거대 언어 모델(LLM: Large Language Model)이 탄생하기 시작한다. 지난 2018년 6월 오픈AI(OpenAI)가 개발한 GPT-1을 시작으로, 점점 모델의 크기를 키워 더 많은 문장과 정보를 기억하고 다양한 언어와 지식에 대응하게 된다.
모델의 크기는 학습해야 할 파라미터의 개수로 표현되는데, 그 수가 수십 억에서 수 조개까지 되는 초거대 언어 모델들이 등장한다. 대표적인 예로서, 오픈AI의 GPT-4, 구글의 Gemini, 그리도 메타의 LLaMA 등을 들 수 있다.
LLM의 기반 모델로 사용되던 트랜스포머가 이제 그 기능을 이미지 이해와 생성 분야로 확장한다. 트랜스포머를 기반으로 소위 비전-언어 모델(VLM: Vision-Language Model)라 불리는 VLM이 만들어진다.
VLM은 이미지와 텍스트를 동시에 처리하는 멀티-모달(Multi-Modal) 작업을 수행한다. LLM과 VLM의 차이를 입력과 출력 측면에서 살펴보면, LLM은 텍스트 형태의 입력과 출력을 갖는다.
예를 들어, “오늘 날씨 어떄?”라는 입력에 “흐림입니다.”라는 출력으로 답한다. 반면에 VLM은 이미지와 텍스트 형태의 입력을 받아 텍스트나 이미지 형태의 출력을 만든다. 예들 들어, 이미지를 보여 주며 “이 이미지의 배경은 무엇인가요?”라는 질문에 “산과 호수입니다”라 답한다.
최초의 VLM은 지난 2021년 메타에서 개발한 VirTex다. 이 모델은 이미지 캡셔닝 작업을 수행한다. 입력된 이미지를 분석하여 자연어로 설명문(캡션)을 작성한다. 전문 지식이 없는 사용자도 쉽게 사용할 수 있도록 설계돼 많은 기업과 개발자들의 관심을 끌었다.
그후 구글의 SimVLM, 오픈AI의 GPT-4o, 그리고 올해 코히어(Cohere)가 개발한 Aya Vision 등 수많은 형태의 VLM이 개발돼 다양한 분야에서 활용되고 있다. 특히 Aya Vision은 23개의 다국어로 멀티-모달 작업을 수행한다. 오픈 소스로 공개돼 전 세계 연구자들에게 큰 관심을 받고 있으며 다양한 산업에서 활용 가능성이 확대되고 있다.
VLM은 이미지와 텍스트 간의 상관 관계를 학습해 복합적 멀티-모달 입력을 동시에 이해하고 처리할 수 있다. 이미지와 텍스트 데이터를 결합해 각각의 성능을 극대화하고 더 정교한 결과를 생성할 수 있다. VLM의 이러한 기능은 다양한 응용 분야를 창출한다.
예를 들어, 구글에서 개발한 VLM 모델인 구글 렌즈는 핸드폰 카메라로 촬영된 이미지를 분석해 자연어로 해당 이미지를 설명하는 이미지 캡셔닝 기능을 수행한다. 이러한 이미지 캡셔닝 기능은 온라인 쇼핑에서 고객이 제품 이미지를 업로드하면, 해당 이미지 속성을 추출해 상세한 제품 설명을 자동으로 작성해 검색 효율을 높인다.
농업 분야에서 드론이 촬영한 작물 이미지를 분석해 해충 피해를 감지하고 농부에게 자연어로 해결책을 제안할 수 있으며, 의료 분야에서 CT 스캔 이미지를 분석하고 자연어로 의사에게 진단 결과를 전달하는데 활용될 수 있다.
또 오픈AI에서 개발한 VLM인 DALL-E는 사용자가 입력한 텍스트를 분석해 독창적 이미지를 생성한다. 이러한 기능은 출판 및 광고 분야에서 책 표지나 광고 이미지 제작에 활용될 수 있으며, 디지털 아트 및 영화와 같은 예술 분야에서 독특한 시각적 요소 생성에 활용될 수 있다.
VLM의 멀티-모달 처리 능력은 로봇이 인간과 자연스럽게 자연어로 대화하며 인간과 협업하는데 사용된다. 예를 들어, 코가로보틱스가 개발한 코나(CoNA) 로봇은 VLM 기반으로 사용자 명령을 해석하고 환경 정보를 이해해서 목적지까지 스스로 이동하는 자율 주행을 수행하며 주어진 임무를 완수한다.
VLM을 장착한 다양한 형태의 로봇이 개발되고 있으며, 이들은 가정에서 가사 도우미 역할, 매장에서 안내 및 서빙 역할, 실외 자율 주행, 방역 및 물류 산업 등에서 활용될 수 있다.
이처럼 다양한 분야에서 활용되는 VLM이 높은 성능을 갖기 위해서는 충분한 양의 학습 데이터에 의해 사전 학습이 이뤄져야 한다. 학습 데이터는 대응되는 이미지-텍스트 쌍으로 구성된다. 예를 들어, ‘고양이’ 이미지와 해당 이미지에 대한 설명 ‘고양이가 잔디 위에 앉아 있다’라는 텍스트가 대응되는 이미지-텍스트 쌍으로 사용된다.
준비된 학습 데이터 쌍을 컴퓨터가 이해할 수 있는 적절한 형태의 코드로 인코딩하고 융합하는 작업이 바로 VLM 학습 과정이다. 대표적인 학습 방법은 대조 학습(Contrastive Learning), 접두어 기반 학습(Prefix Learning), 그리고 마스킹 학습(Masking Learning)이다.
대조 학습(Contrastive Learning)은 대응되는 이미지 코드와 텍스트 코드는 서로 유사한 코드 값을 갖고, 대응되지 않는 데이터 쌍은 서로 상이한 코드 값을 갖도록 인코딩한다. 예를 들어, ‘고양이’ 이미지에 대한 코드 값과 ‘고양이가 잔디 위에 앉아 있다’라는 텍스트에 대한 코드 값은 서로 유사한 값으로 인코딩한다. 따라서, 학습된 VLM은 ‘고양이’ 이미지가 입력되면 유사한 코드 값을 갖는 텍스트를 찾아 ‘고양이가 잔디 위에 앉아 있다’라는 캡션을 출력하게 된다.
접두어 기반 학습(Prefix Learning)은 모델에 앞부분 정보(prefix)를 주고 다음 내용을 추론하도록 학습하는 방법이다. 예를 들어, 접두어인 ‘고양이’ 이미지에 대한 코드 값을 기반으로 다음에 나올 문장 ‘고양이가 잔디 위에 앉아 있다’의 코드 값이 예측될 수 있도록 VLM을 학습한다.
마스킹 학습(Masking Learning)은 이미지를 블록 단위로 분할하고 특정 블록을 가린 후, 각 블록의 코드 값을 기반으로 가려진 블록의 코드 값이 예측될 수 있도록 학습한다. 학습된 VLM은 고해상도 영상 생성 및 영상 복원에 사용된다.
VLM은 보고 말할 수 있는 AI로, 다양한 응용 분야에서 사용될 수 있지만 동시에 잘못 사용되면 윤리적 문제와 지적 재산권 문제 등 여러 사회적 문제를 발생할 수도 있다.
VLM은 대규모 이미지-텍스트 데이터로 학습되므로, 데이터 셋에 포함된 사회적, 문화적 편향이 모델 결과에 반영될 수 있으며 이는 특정 집단에 대한 차별적 결과를 초래할 위험이 있다. 또한, VLM은 잘못된 정보를 생성하거나, 악의적인 목적으로 사용돼 허위 콘텐츠를 확산시킬 가능성이 있다.
예를 들어, 조작된 이미지 설명이나 질문 응답 과정에서 잘못된 답변을 제공할 수 있다. 따라서, 데이터 편향을 줄이고 공정성을 확보하기 위해 다양한 문화와 관점을 반영한 데이터 셋 구축과 허위 정보를 필터링하는 알고리즘의 도입이 필요하다.
개인 정보를 포함한 데이터로 학습된 VLM은 민감한 정보를 유출하거나 이를 기반으로 콘텐츠를 생성할 위험이 있으며, 딥페이크(Deepfake)와 유사하게 조작된 이미지를 생성하거나, 허위 자료를 만들어 사회적 혼란을 야기할 수 있다.
VLM 학습에 사용된 텍스트와 데이터가 저작권 보호 대상일 경우, 이를 무단으로 사용하거나 변형하면 저작권 침해로 이어질 수 있다. VLM이 독립적으로 창작한 결과물의 소유권을 누구에게 귀속해야 하는지 명확하지 않다. 이는 개발자, 사용자, 또는 VLM 자체 간의 법적 논쟁을 초래할 수 있다.
따라서 VLM 창작물에 대한 명확한 지적 재산권 규정을 마련해 소유권 논란을 해결해야 한다. VLM은 강력한 잠재력을 가지고 있지만, 법·윤리적 문제 해결을 위한 지속적인 연구가 필요하다.
최형일 숭실대학교 명예교수
(전) 숭실대 IT대학 학장
(전) 숭실대 정보과학 대학원 원장
(전)컴퓨터사용자협회 고문
/수원=김정수 기자(kjsdm05@inews24.com)
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기