서울신문·글로벌빅데이터 작업 어떻게
서울신문이 글로벌빅데이터연구소와 실시한 제21대 총선 빅데이터 연구는 코로나19 확산과 제1야당의 당명 변경, 여야의 비례위성정당 출범 등 주요 변수가 부각된 시점을 전후한 온라인 게시글 전체 824만여건을 대상으로 했다.빅데이터 분석은 1월 20일~3월 23일 트위터·인스타그램·유튜브·페이스북·뉴스·커뮤니티·블로그·카페·카카오스토리·네이버 지식인·기업/단체·정부/공공 등 12개 온라인 채널에 게시된 콘텐츠 가운데 총선이나 코로나 등 특정 키워드가 포함된 글들을 분석 대상으로 삼았다. 다만 댓글은 대상에서 제외했다.
두 개의 키워드가 동시에 들어간 콘텐츠의 경우 단어만 포함되고, 내용이 다른 글들을 제외하기 위해 지정된 키워드 외에 15개 이상의 단어가 포함된 글만 정보로 인정했다. 긍정률과 부정률은 인공지능(AI) 시스템을 통해 각 게시글의 개별 단어를 분석, 긍정·부정적 의미의 단어 개수를 분석해 긍정률, 부정률, 중립률로 분류했다. 예를 들어 게시글에 ‘예쁘다’ ‘좋다’ ‘최고’ ‘잘한다’ 등의 단어는 긍정글로, ‘나쁘다’ ‘화난다’ ‘짜증’ ‘못한다’ 등은 부정글로 봤다.
각 정당 호감도 분석은 미래통합당 출범 다음날인 2월 17일을 기준으로 잡았다. 지역구별 후보자 키워드 분석은 2월 17일부터 한 달인 3월 18일까지로, 비교 기간은 그 전 한 달로 했다. 코로나19의 총선 연관성 확인을 위한 분석 기간은 첫 확진자가 발생한 1월 20일부터 3월 18일로, 비교 기간은 2019년 11월 22일부터 2020년 1월 19일로 삼았다.
박재홍 기자 maeno@seoul.co.kr
2020-04-01 8면
Copyright ⓒ 서울신문. All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지