알파고와 100번 겨뤄 100번 이긴 '알파고 제로' 공개

<네이처> '인간 지식 없이 바둑 마스터' 논문 게재
하사비스 창업자 등 '알파고 제로' 개발자 17명 공동
기보와 대국 상대 없이 셀프 대국하며 이치 깨달아
하사비스 "인간 한계 뛰어넘는 인공지능 연구 이정표"

[한겨레]

지난해 3월 열린 ‘구글 딥마인드 챌린지’에서 이세돌 9단과 알파고가 대국을 하고 있다. 구글 제공

구글의 인공지능(AI) 기술 개발 자회사인 딥마인드가 우리나라의 이세돌 9단과 중국의 커제 9단 등 인간 바둑 고수들을 잇따라 격파한 바둑 프로그램 ‘알파고’를 능가하는 새 바둑 프로그램 ‘알파고 제로’를 공개했다. 바둑 교과서나 기보는 물론이고 대국 상대도 없이 독학으로 바둑을 익혔는데도 인간 고수들을 이긴 기존 알파고 프로그램을 압도하는 능력을 갖췄다.

데미스 하사비스 딥마인드 창업자 겸 최고경영자를 포함해 이 회사 연구원 17명은 알파고 제로 알고리즘과 그동안 테스트 결과 등을 담은 ‘인간 지식 없이 바둑을 마스터하기(Mastering the game of Go without human knowledge)’ 제목의 논문을 19일(한국시각) 발표했다. 이 논문은 세계적인 과학학술지 <네이처>에 실렸다.

논문을 보면, 알파고 제로는 바둑 규칙 외에는 아무런 사전 지식이 없는 상태의 신경망에서 출발한 게 기존 알파고 프로그램과 다르다. 바둑판을 놓고 ‘셀프 바둑’을 두면서 바둑의 이치를 터득했다. 스스로 승률을 높이는 수가 어떤 것인지 깨닫고 관련 데이터를 축적하면서 실력을 키웠다. 이런 학습 방식은 생물의 뇌에서 실제로 작동하는 ‘강화 학습’과 유사하다. 개에게 먹이를 주면서 “앉아” 등 특정 행동을 훈련시키는 것과 비슷하다.

구글의 인공지능(AI) 기술 개발 자회사인 딥마인드가 새 바둑 프로그램 ‘알파고 제로’를 공개했다. 자료: 네이처

지난해 3월 ‘구글 딥마인드 챌린지’에서 이 9단을 4대 1로 이긴 알파고(편의상 ‘알파고 리’로 지칭)과 비교하면, 알파고 제로는 독학 36시간만에 알파고 리의 실력을 넘어섰다. 또한 72시간 독학을 한 뒤 ‘이 9단 대 알파고 리’ 실전 당시와 똑같은 대국 조건(제한시간 2시간씩)에서 알파고 리와 대결한 결과, 100전 전승을 기록했다. 알파고 제로가 한 수에 0.4초가 걸리는 ‘초속기’ 바둑으로 490만판을 혼자 두면서 연구한 결과라고 연구진은 설명했다.

알파고 제로가 혼자 40일에 걸쳐 2900만판을 둔 후에는, 올해 5월 세계 랭킹 1위 커제 9단을 3대 0으로 꺾었던 기존 최강 알파고(알파고 마스터)의 실력마저 압도했다. 알파고 마스터와 겨뤄 100전 89승 11패를 기록했다.

알파고 제로는 독학하는 과정에서 인간이 터득한 정석을 스스로 깨달았을뿐만 아니라 독특한 정석을 개발하기도 했다. 연구진은 독학으로 바둑을 배운 알파고 제로가 기존 알파고보다 강한 이유에 대해 “인간 지식의 한계에 더이상 속박되지 않기 때문”이라고 설명했다. 기존 알파고 버전들은 일부 정석 등을 인간으로부터 배웠고 인간이 둔 기보도 공부했지만, 알파고 제로는 인간으로부터 전혀 배운 것이 없기 때문에 인간의 선입견과 한계에 얽매이지 않는다는 것이다.

하사비스는 “우리 바둑 프로그램 중 가장 강력한 버전인 알파고 제로는 사람이 만든 데이터를 입력하지 않아도 될뿐만 아니라 컴퓨팅 파워도 덜 든다. 인간의 한계를 뛰어넘는 인공지능 연구의 중요한 이정표가 될 것”이라고 강조했다.

김재섭 기자 jskim@hani.co.kr

IT

알파고와 100번 겨뤄 100번 이긴 '알파고 제로' 공개