기업·학계 등 20여곳과 파트너십 협의 중
업스테이지는 한국어 데이터 확보를 위해 ‘1T 클럽’(1조 토큰 클럽)을 발족한다고 14일 밝혔다. 토큰은 LLM이 인식하는 문자 데이터 단위다.
1T 클럽은 한국어 데이터 부족 문제를 해결하고, 고성능 LLM 개발을 통해 한국의 LLM 독립을 목표로 한다. LLM 개발은 방대한 언어 데이터가 기반이 돼야 한다. 한국어 데이터는 국내 LLM 발전에 필수이지만 영어 데이터에 비해 턱없이 부족하다.
45조개의 영어 데이터 토큰을 학습한 오픈AI의 GPT-3는 한국어 데이터의 경우 학습량이 고작 1억개로, 비중은 0.01697%, 전체 언어 중 28위에 불과하다. 이런 LLM은 그대로 국내 기업이 활용하기 어렵다. 한국어 실력은 물론 정서나 지역적인 정보까지 취약하기 때문이다.
1T 클럽은 한국어 데이터에 1억 단어 이상 기여할 수 있는 파트너로 구성된다. 업스테이지는 현재 언론사 및 기업, 학계 등 데이터 제공자 20여곳과 파트너십을 위해 협의하고 있다.
회사는 확보한 데이터로 한국 문화·정서를 담아낼 수 있는 LLM을 개발하고 다양한 분야의 생성형 AI 어플리케이션에 활용한다. 기여한 토큰 수에 비례해 LLM 응용프로그램 인터페이스(API)를 사용할 수 있는 비용을 할인한다. 사업 수익 일부도 파트너사에 지급한다.
파트너사들이 제공하는 데이터는 한글 프리트레이닝 학습 용도로만 사용하며, 원문을 유출할 수 없도록 자체 탈옥 방지 기술을 적용한다. 이를 통해 AI가 데이터를 자동으로 수집·분류·저장하는 ‘크롤링’으로 발생하는 저작권 문제 등을 해결하고, 데이터 제공자와 모델 제작자 모두가 혜택을 볼 수 있도록 운영할 수 있다고 회사는 설명했다. 1T 클럽에 관심 있는 기업·기관은 업스테이지 홈페이지에서 신청하면 된다.
앞서 업스테이지가 자체 개발한 메타 ‘라마-2’ 파인튜닝(미세조정) LLM은 머신러닝 플랫폼 ‘허깅페이스’에서 운영하는 오픈 LLM 리더보드에서 72.3점으로 1위를 차지했다. 지난달엔 매개변수가 300억개에 불과한 모델로 허깅페이스 리더보드에서 평균 67점을 얻어 국내 LLM 중 처음으로 1위를 기록했다.
김성훈 업스테이지 대표는 “‘1T 클럽’으로 데이터 제공자들의 권익을 지키고 이를 토대로 한국의 문화·정서를 담아낼 수 있는 거대언어모델을 개발해, 국내 모든 기업이 인공지능 발전의 수혜를 볼 수 있도록 최선을 다하겠다”고 말했다.
Copyright ⓒ 서울신문. All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지