영상 이미지 음성 등 ‘비정형 데이터’
AI 핵심 재료이자 소통의 중요 매개
개인정보 노출 방지 원칙도 세워야
고학수 개인정보보호위원회 위원장
사실 혁신이라는 것은 세상을 크게 변화시키는 일회성 대변혁보다 여러 가지의 작은 변화와 개선의 형태로 나타나는 경우가 더 많다. 인류의 역사를 바꾼 커다란 기술 변화 또한 그러한 기술의 변화가 일상의 변화로 이어지기까지 여러 연관 기술의 도입을 포함해 적지 않은 시간이 소요돼 온 것도 사실이다. 그런 관점에서 올해를 포함한 향후 몇 년 동안의 변화는 장차 인공지능이 우리의 일상에 어떤 구체적인 변화를 가져올지 가늠하게 해 주는 중요한 역할을 수행할 것이다. 또한 그러한 변화를 통해 우리나라가 글로벌 인공지능 생태계에서 어떻게 자리매김할 것인지 윤곽이 잡혀 가기도 할 것이다.
정부의 인공지능 정책에서도 거시적 시각에서의 정책 못지않게 중요한 것은 세밀한 디테일이 담긴 미시적 정책이다. 특히 현대의 인공지능은 근본적으로 데이터에 기반해 개발되고 이용되기 때문에 세밀한 데이터 정책은 인공지능과 관련해 매우 중요하다. 데이터 중에서 기존에는 행과 열의 구조를 갖춘 소위 ‘정형 데이터’에 대한 수요가 많았다면 최근에는 ‘비정형 데이터’의 필요성이 크게 강조되고 있다.
비정형 데이터는 정리되고 관리되는 방식 자체가 기존의 데이터와는 크게 다르다. 가장 흔히 생각할 수 있는 비정형 데이터로는 텍스트 데이터를 들 수 있다. 챗GPT의 이용 등 일반적으로 인공지능과 관련해 가장 활용도가 높은 데이터가 텍스트 데이터다. 그 외에 이미지 데이터나 영상 데이터에 대한 수요 또한 크게 늘고 있다. 엑스레이를 비롯해 의료 인공지능의 맥락에서는 이미지 데이터의 중요성을 아무리 강조해도 지나치지 않다. 텍스트와 이미지, 영상 데이터를 함께 다루게 되는 상황도 늘고 있다. 최근에는 음성 데이터가 새로이 주목받기도 한다. 음성 데이터는 그 자체로 활용되기도 하고 텍스트로 변환된 후 활용되기도 한다.
이런 다양한 비정형 데이터는 인공지능을 개발하는 데 핵심적인 재료로 이용될 뿐만 아니라 이용자와 인공지능 사이의 소통에 중요한 매개가 되기도 한다. 그런데 비정형 데이터에 개인정보가 담겨 있는 경우 이를 어떻게 처리할 것인지 난감할 수 있다. 기존의 개인정보 비식별 처리 기준이 주로 정형 데이터를 전제로 이에 관한 비식별 처리 방법론을 제시했다면 이제는 인공지능의 발전에 발맞춰 비정형 데이터의 비식별 처리 방법론을 마련하는 것이 중요해진 상황이다. 문제는 비정형 데이터가 일정한 규격이나 정형화된 형태가 있는 것이 아니어서 데이터 처리 방식 또한 복잡다기하고 비식별 처리의 방법도 체계화하기 어렵다는 데 있다.
결국 비정형 데이터에 대한 비식별 처리를 위해서는 데이터의 특수성을 잘 반영해야 할뿐더러 무엇보다 경험과 사례를 충분히 축적하는 것이 중요하다. 구체적으로 환자 골밀도를 촬영한 의료 이미지 데이터의 사례를 들어 보자. 골밀도 이미지 자체만으로는 환자를 식별해 내는 것이 거의 불가능하다. 그러나 이미지와 함께 예컨대 환자 번호가 표시돼 있으면 식별이 가능할 수 있다. 그런 경우라면 마스킹 기법을 이용해 환자 번호를 제거한다. 환자 상태에 관한 자유 입력 기록지의 내용이 문제되는 경우도 있을 수 있다. 그런 경우 기록을 정형화된 형태로 변환한 뒤 비식별 처리를 거쳐 분석하도록 한다. 이런 식으로 원칙을 세우고 모범 사례를 지속적으로 쌓아 가야 한다.
혁신은 작은 변화에서 온다. 데이터 정책의 혁신 또한 작은 변화에서 온다.
2024-01-26 26면