뷰페이지

[단독] 공공기관 여론조사 + 빅데이터 기계 학습 ‘신개념’

[단독] 공공기관 여론조사 + 빅데이터 기계 학습 ‘신개념’

이영준 기자
이영준 기자
입력 2017-12-04 22:42
업데이트 2017-12-10 23:44
  • 글씨 크기 조절
  • 프린트
  • 공유하기
  • 댓글
    14

[신뢰사회로 가는 길] 향후 조사 어떻게 하나

서울신문과 서울대 폴랩(pollab)의 한규섭 언론정보학과 교수팀은 빅데이터 분석을 통해 33개 공공기관에 대한 신뢰지수를 도출하고 있다. 서울신문은 조만간 33개 공공기관 설문조사 결과를 통해 나타난 조사 결과와 언론 보도 빅데이터 분석 결과를 비교 분석할 계획이다.

4일 서울대 폴랩에 따르면 언론 보도 빅데이터 분석은 해당 공공기관과 관련한 언론 보도를 수집한 뒤 ‘기계 학습’(Machine Learning) 방식을 적용해 이뤄졌다. 올해 1월 1일부터 10월 31일까지 네이버와 검색제휴 협약을 맺은 모든 언론사의 기사 21만 4000여건이 분석 대상이 됐다. 기관별로는 최대 6만 3595건(경찰청), 최소 391건(국무조정실) 수집됐다. 한 교수팀은 수집된 기사 일부를 무작위로 추출해 기사의 논조를 평가했다. 이어 그 평가 기록을 컴퓨터 알고리즘을 통해 학습시켜 다른 기사의 논조를 분석하도록 했다.

교수팀은 기사 제목에 등장하는 단어들이 긍정적인 논조의 기사에 등장하는지, 부정적인 논조의 기사에 등장하는지 그 확률을 계산해 분류하는 베이지언 분류 기법도 적용해 분석했다. 한 교수는 “기존 빅데이터 분석은 주로 단어의 의미망(클라우드)이라든지 특정 단어의 출현 빈도를 위주로 이뤄졌는데, 여기서 한 걸음 더 나아가 기계학습 방식을 적용해 모든 기사의 논조를 긍·부정으로 평가하고 이를 지수화했다”고 설명했다.

교수팀은 또 LDA(Latent Dirichlet Allocation·텍스트에 존재하는 일정한 패턴을 식별하여 주제를 찾는 기법) 토픽 모델링(Topic Modeling·주제별 분류) 기법을 활용해 방대한 기사를 추가로 분석했다. 컴퓨터 알고리즘을 통해 기사에 등장하는 단어들의 분포를 파악해 해당 기사의 주제가 무엇인지를 추정하고 기사를 주제별로 분류하는 방식이다. 이 기법을 활용하면 각 기관들에 대한 언론 보도가 주로 어떤 주제로 구성돼 있었는지를 파악할 수 있다. 또 해당 기관이 긍정 혹은 부정적인 평가를 받은 이유가 어떤 주제 때문인지도 추정할 수 있다. 예를 들어 헌법재판소와 관련된 기사에서 가장 많이 언급된 주제가 ‘탄핵’이라면 탄핵이 헌재의 신뢰도를 형성하는 데 주요한 역할을 했다는 의미다.

특별기획팀 kisukpark@seoul.co.kr

▲수행기관: 서울신문·서울대 폴랩(Pollab) 한규섭 언론정보학과 교수팀 ▲조사기관: 리얼미터 ▲일시: 2017년 11월 16∼20일(5일간) ▲대상: 전국 19세 이상 성인 남녀 ▲조사방법: 구조화된 설문지를 이용한 스마트폰 앱 방식 ▲표본: 1703명 ▲피조사자 선정방법: 무선(100%) 임의 스마트폰 알림(RDSP·Random Digit Smartphone-Pushing) ▲응답률: 2.2% ▲오차 보정방법: 2017년 10월 말 행정안전부 발표 주민등록인구 기준 성, 연령, 권역별 가중치 부여 ▲표본오차: 95% 신뢰 수준, ±1.2% 포인트.
2017-12-05 2면

많이 본 뉴스

의료공백 해법, 지금 선택은?
심각한 의료공백이 이어지고 있습니다. 의대 증원을 강행하는 정부와 정책 백지화를 요구하는 의료계가 ‘강대강’으로 맞서고 있습니다. 현 시점에서 가장 먼저 필요한 것은 무엇일까요?
사회적 협의체를 만들어 대화를 시작한다
의대 정원 증원을 유예하고 대화한다
정부가 전공의 처벌 절차부터 중단한다
의료계가 사직을 유예하고 대화에 나선다
광고삭제
위로