이상열 경희대병원 내분비내과 교수
미국 펜실베이니아대 연구진은 999명이 작성한 SNS 게시물 약 95만건을 확보해 여기에서 약 2000만개 단어를 추출했다. 자연어 처리 기법을 활용해 이 데이터를 700여 가지 변수로 범주화했다. 그리고 대상자의 전자의무기록과 대조해 소셜미디어 게시물이 연구 대상자의 의학적 상태를 반영할 수 있는지 조사했다.
연구 결과 대상자가 소셜미디어에 게시한 단어를 활용해 전체 21개 항목 가운데 18개의 상황을 비교적 높은 정확도로 예측할 수 있었다. 일부 의학적 상황은 연령이나 성별, 인종 등 일반적 개인 정보보다 예측력이 높았다. 개인 정보와 소셜미디어 정보를 함께 활용하자 예측은 더욱 정확해졌다.
특히 소셜미디어 게시물은 불안이나 우울증 등 정신건강 상태, 당뇨병과 같은 대사질환을 예측하는 데 매우 효과적이었다. 예를 들어 우울증을 앓는 사람들은 ‘상처’나 ‘감정’, ‘보살핌’ 같은 단어를 게시물에 쓸 가능성이 컸다. ‘신’이나 ‘기도’, ‘주님’ 같은 단어가 포함된 게시물을 올린 사람들은 당뇨병을 앓고 있을 확률이 더 높았다. 이는 소셜미디어가 병원에서 수집하는 개인의 특성 정보와는 분명히 다른 차원의 의미를 내포하고 있다는 점을 시사한다고 볼 수 있다.
물론 이 연구는 한계가 있다. 아쉽게도 소셜미디어 게시물과 특정 질병의 관련성을 확인했을 뿐, 질병을 예측하거나 치료 효과를 예측하는 성과는 보여 주지 못했다. 또 의료진은 임상진료를 통해 환자들에게서 더 상세하고 포괄적인 정보를 수집하기 때문에 이 연구에 나타난 소셜미디어의 임상 활용 가능성은 다소 과장된 면이 있다. 한국인은 문화·사회적 특성이 다르기 때문에 우리를 대상으로 같은 연구를 한다면 분명히 다른 특성을 보일 것이다. 임상 현장에서 개인의 소셜미디어 자료를 받아 분석할 수 있는 대용량 컴퓨터 기술도 아직 보급되지 않았다.
하지만 사용자의 중요한 정보를 담은 소셜미디어 데이터는 앞으로 개인의 행동이나 환경과 관련된 의학적 위험 요인을 연구하고 평가하는 데 광범위하게 활용될 가능성이 크다. 흥미롭게도 연구자들은 이를 ‘소셜미디어의 오믹스’(Social Mediome)라고 불렀다. 이는 개인의 유전 정보 등 각종 생체 오믹스(총체적인 개념의 데이터를 바탕으로 한 최신 생물학 분야) 데이터와 마찬가지로 저장, 보관, 분석할 수 있는 자료이기 때문이다. 머지않은 미래에는 환자에게 소셜미디어 정보 분석 동의 여부를 묻는 질문지가 등장할지도 모르겠다.
2019-07-09 29면
Copyright ⓒ 서울신문. All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지