지진·여진 예측 알고리즘 적용 어떻게
“지진, 범죄, 전염병… 무슨 관계냐고요? 알고리즘 공식 하나로 미래를 내다볼 수 있습니다.”① ‘레드박스’(도시내 범죄 다발구역)가 표시된 프레드폴 실시간 범죄예측지도. ② 지진·여진 예측 알고리즘(ETAS모델). ③ ‘레드박스’로 표시된 장소의 범죄발생률 예측 그래프. 해당 장소의 범죄 빅데이터를 ②에 적용해 나온 범죄발생률(세로축) 값을 시간(가로축)에 따라 연속적으로 배열. 그래프가 치솟는 시간대가 해당 지역의 범죄발생 가능성이 크다는 뜻이다.
이어 “어느 날 어디선가 범죄가 발생하면 인근에서 유사한 범죄 혹은 같은 범죄자의 재범이 발생할 확률이 커진다”며 “어디선가 전염병 감염자가 확인되면 곧이어 주위에 또 다른 감염자가 나타날 위험이 커지는 것과 유사하다”고 덧붙였다.
즉 특정 범죄·사건 이후 뒤따르는 유사 범죄의 발생 시간과 장소, 유형 등 데이터만 있으면 미래를 예측할 수 있다는 것이다. 이를 가능케 한 것은 대규모 지진 이후 뒤따르는 여진들을 예측하는 지진·여진 예측 알고리즘인 ‘λ(람다)= μ(뮤)+G(가우시안 함수)’이다. 각각의 장소에서 일어났던 범죄 빅데이터를 토대로 산출한 범죄발생률인 ‘μ(뮤)’에 특정 범죄에 뒤따르는 유사·모방 범죄의 분포인 ‘G’를 적용하면 범죄발생률 ‘λ’가 나오는 식이다.
과거 발생한 범죄 유형을 정해 공식에 넣으면 해당 범죄발생률 예측 값만 따로 뽑을 수도 있다. 도시의 특성에 따라 맞춤형 범죄예측이 가능하다는 얘기다. 현재 로스앤젤레스는 자동차 절도와 빈집 털이를, 샌타크루즈는 자동차 절도, 빈집 털이, 폭행, 조직폭력 활동 등 각각 다른 유형의 범죄발생률 값을 프레드폴을 통해 얻고 있다.
몰러 교수는 “과거에 대한 범죄 기록이 많으면 많을수록 범죄발생률 예측은 정확해진다”고 설명했다. 지난 5년간 범죄 기록보다는 10년치 기록을 활용하면 예측 정확도가 높아지는 식이다. 범죄가 발생한 시간, 장소 등 기본 정보 이외에 다른 정보들을 추가로 알고리즘에 대입시키면 보다 구체적인 범죄 예측도 가능하다. 몰러 교수는 “한국 경찰에서 범죄 빅데이터만 제공한다면 서울에서도 범죄 예측이 가능하다”고 덧붙였다.
샌타클래라(미국) 최훈진 기자
choigiza@seoul.co.kr
2014-11-03 4면
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지