[이세돌vs알파고 오늘 ‘세기의 대결’] “인간 모방 아닌 이기는 게 알파고의 목표”

윤수경 기자

입력 2016-03-08 23:22

수정 2016-03-09 02:47

글씨 크기 조절
글자크기 설정

닫기

글자크기 설정 시 다른 기사의 본문도 동일하게 적용 됩니다.
- 가
- 가
- 가
- 가
- 가
프린트
공유하기
공유

닫기
- 페이스북
- 네이버블로그
- 엑스
- 카카오톡
- 밴드
https://www.seoul.co.kr/news/economy/IT/2016/03/09/20160309004016
URL 복사
댓글
14

알파고 개발 데이비드 실버 교수

DB화로 3000만개 바둑돌 학습
셀프 대국으로 시행착오도 줄여

“스스로 학습해서 발전하는 알파고는 인간을 모방하는 것이 아니라 이기는 것이 목표입니다.”

이미지 확대

이세돌 대 알파고, 100만 달러(약 12억원)짜리 반상 대결을 앞두고 한국을 찾은 알파고 개발 책임자인 구글 딥마인드의 데이비드 실버 교수는 8일 미래창조과학부가 경기 판교에 위치한 경기창조경제혁신센터에서 연 인공지능 콘퍼런스에서 이같이 말했다.

구글 딥마인드의 인공지능 바둑 프로그램인 알파고는 1997년 체스 세계 챔피언을 꺾은 IBM의 슈퍼컴퓨터 ‘딥블루’와 대조된다. 실버 교수는 “딥블루는 초당 200억개의 수를 고려하지만, 알파고는 초당 10만개의 수를 고려한다”며 “딥블루는 경우의 수 하나하나를 따지지만, 알파고는 경우의 수를 모두 탐색하지 않고 제한된 시간 안에 가장 승리할 가능성이 높은 경로를 탐색한다”고 밝혔다.

알파고는 어떻게 필요 없는 정보를 가지치기할 수 있는 걸까.

프로 바둑기사들은 직관적인 판단을 통해 착수(돌을 내려놓음)를 결정하지만, 인공지능 바둑 프로그램은 버릴 건 버리고 취할 건 취하는 탐색 전략을 펼친다. 알파고는 ‘몬테카를로 트리 탐색’(MCTS)과 ‘심층 신경망’ 기술이 결합돼 설계됐다. MCTS는 선택지 중 가장 유리한 선택을 하도록 돕는 알고리즘이다. 알파고가 바둑돌을 놓을 위치를 정하는 알고리즘은 각각 ‘정책망’과 ‘가치망’이라 불리는 신경망이 결합된 것이다. 정책망은 다음에 돌을 어디에 둘지 선택하고, 가치망은 승자를 예측한다.

알파고의 학습 역시 획기적이다. 알파고는 전문 바둑기사의 기보를 데이터베이스화해서 3000만개의 바둑돌 위치를 학습했다. 그다음 ‘셀프 대국’을 해 시행착오를 줄였다. 실버 교수는 “알파고가 우리에게 흥분과 감동을 주는 이유는 계속 새로 학습하고 대국을 통해 더 높은 수준으로 발전할 수 있다는 점 때문”이라면서 “이런 능력은 맞춤형 의료 서비스 등과 같은 다른 일까지도 수행할 수 있는 밑거름이 될 수 있으며 미래를 알려 줄 수 있다는 데 의의가 있다”고 설명했다.

윤수경 기자 yoon@seoul.co.kr

2016-03-09 4면