토종AI 네이버 클로바X 업데이트
이미지 정보로 AI와 대화 가능한국어·손글씨 인식 능력 강화
검정고시 문제 이미지 처리 결과
정답률 오픈AI GPT 4o보다 높아
음성 기술·감정 표현 기능도 향상
네이버의 대화형 인공지능(AI) 에이전트인 ‘클로바X’에 손으로 네 개의 회사 점유율을 표시한 도표를 그려 보여 주면서 ‘어느 회사의 점유율이 가장 높냐’고 묻자 클로바X가 그림에 표시된 대로 ‘회사 A의 시장 점유율이 50%로 가장 높다’고 답하고 있다.
네이버 제공
네이버 제공
네이버가 자사의 대화형 인공지능(AI) 에이전트인 ‘클로바X’에 시각정보 처리 능력을 새롭게 추가한다. 문자로 대화를 나누던 것에서 나아가 사진이나 표 등 이미지를 입력해 이를 기반으로 AI와 소통할 수 있도록 한 것인데 앞서 오픈AI의 ‘GPT-4o’나 구글의 ‘제미나이’ 역시 유사한 기능을 탑재하며 이목이 집중됐었다. 음성 기술도 한층 향상됐지만 관련 서비스는 추후 안전성을 확보한 뒤 출시할 계획이다.
네이버는 클로바X가 오는 27일 서비스 업데이트를 통해 이미지 이해 기능이 향상됨에 따라 클로바X 대화창에 이미지를 업로드하면 이미지에서 추출된 정보와 입력한 질의를 바탕으로 AI와의 대화가 가능해진다고 22일 밝혔다. 자사의 거대언어모델(LLM)인 하이퍼클로바X가 문자는 물론 이미지나 음성을 동시에 처리할 수 있는 멀티모달 AI로 고도화되면서 이와 결합한 클로바X의 기능도 향상됐다.
실제 클로바X에 한 장의 야구 경기 사진을 보여 주며 ‘상황을 설명해 달라’고 하자 “사진 속 장소는 수원 KT 위즈 파크”라며 국내 경기장임을 정확하게 인식한 뒤 ‘조명이 켜진 걸 보니 야간 경기가 진행 중인 것으로 보인다’며 추론하는 모습을 보였다. 표나 그래프를 이해하고 수학 문제를 풀어내는 능력도 갖췄는데, 회사 네 곳의 시장 점유율(%)을 나타낸 원형 도표를 제시하면서 ‘어느 회사의 점유율이 가장 높냐’고 질문하자 클로바X는 “그래프에 따르면 회사 A의 시장 점유율이 50%로 가장 높다”고 말한 뒤 이어 점유율 순서대로 회사를 나열했다.
흥미로운 건 해당 이미지가 컴퓨터 등으로 만들어진 정제된 도표가 아니라 손으로 종이에 대략적으로 그린 그림이라는 점이다. 이에 대해 네이버는 자사가 세계 최고 수준의 한국어와 손글씨 인식 능력을 갖추고 있다고 밝혔다.
글로벌 빅테크와 비교했을 때 한국형 AI로서의 강점도 두드러졌다. 우리나라 초중고등학교 검정고시에 출제된 1480개의 사지선다 문제를 이미지 형태로 클로바X와 GPT-4o에 입력하자 클로바X의 정답률이 83.8%로 GPT-4o(77.8%) 대비 높게 나타났다. 네이버 관계자는 “이미지를 인식하는 능력뿐만 아니라 한국어 맞춤법 등 한국어와 문화 등을 잘 이해하고 있음을 보여 주는 대목”이라고 했다.
네이버는 이번에 기존의 음성 인식, 음성 합성 기술보다 한층 발전한 모델을 선보이기도 했다. 언어 구조와 발음 정확도가 개선됐을 뿐만 아니라 감정 표현까지 더해져 자연스러운 대화가 가능한 수준까지 도달했지만, 안전한 AI 서비스를 위해 더 면밀한 연구 및 검토가 진행된 이후 서비스에 적용할 예정이란 입장이다.
2024-08-23 14면