추형석 소프트웨어정책연구소 선임연구원
‘데이터 과학자’는 빅데이터를 분석해 새로운 사실을 발굴해 내는 사람을 의미한다. 데이터의 가치가 각광받는 시대에 데이터 과학자는 미래 유망 직종으로 꼽힌다. 전 세계적으로 데이터 과학자의 수요는 급증하고 있으며 숙련된 인력의 몸값은 천정부지로 상승하고 있다. 데이터 과학자의 주요 업무는 데이터를 통해 현상을 분석하고 예측하는 것이다.
데이터를 분석하는 대표적인 도구는 기계학습이다. 기계학습은 데이터를 컴퓨터에 학습시켜 패턴을 인식하도록 하는 것을 말한다. 인간의 뇌를 모사해 학습하는 ‘딥러닝’이 가장 주목받는 기술 중 하나다. 고무적이게도 현재 글로벌 IT 기업은 강력한 기계학습 공개 소프트웨어를 출시하고 있다. 누구나 무료로 사용할 수 있는 공개소프트웨어의 특징 덕분에 데이터의 중요성은 더욱 높아지고 있다. 건축 도면이 기계학습 소프트웨어라면 건축 자재는 데이터이기 때문이다.
데이터 과학자가 되려면 어떻게 해야 할까. 데이터 과학자에 도전하기 위한 관문으로 ‘캐글’(Kaggle)이라는 경진대회 플랫폼이 있다. 캐글에서는 194개국 53만여명의 데이터 과학자가 산업과 사회에 산재한 문제를 해결하기 위해 경쟁한다. 경진대회 우승자에게는 상금이 수여되며 글로벌 IT 기업 입사 기회가 제공된다.
캐글에서는 데이터 과학 입문자를 위한 환경도 제공한다. 인터넷 브라우저에서 직접 코딩이 가능하고 그 결과를 공유할 수 있다. 이것을 토대로 캐글 사용자는 데이터 과학자로서 소양을 기를 수 있다. 캐글에 대해서는 정부기관이나 기업체에서 도전적인 문제와 데이터를 제공하기도 한다. 예를 들면 지난해 12월에 개최된 심장병 질환 예측 문제에서는 1000여명의 심장질환 환자의 자기공명영상(MRI)을 제공했다. 총상금은 2억원이며 전 세계에서 192개팀이 참가해 성황리에 종료됐다.
데이터 과학 분야에는 공유의 문화가 성공적으로 정착돼 있다. 인터넷에 탄탄한 설명서부터 수준 높은 강좌까지 무료로 공개되어 있다. 데이터 과학자가 되는 길이 쉽지는 않겠지만 스스로 공부하고 응용할 수 있는 환경은 이미 마련되었다. 주저하지 말고 데이터 과학자에 도전해 보는 것은 어떨까.
2016-09-06 29면