IT

슈퍼컴 아닌 노트북 AI도 인간 포커고수 꺾었다

입력 2017.03.03. 09:06 수정 2017.03.03. 21:39
음성 기사 옵션 조절 레이어
글자 크기 조절 레이어
인공지능의 '직관' 이용해 '불완전 정보 게임' 정복

(서울=연합뉴스) 임화섭 기자 = 과학 학술지 사이언스 3일자에 발표된 인공지능(AI) 포커 프로그램 '딥스택'(DeepStack)이 무제한 베팅 포커에서 인간 도박사들보다 우수한 성적을 낸 것은 AI가 매우 많은 분야에서 인간의 능력을 추월했음을 보여 주는 예다.

컴퓨터 입장에서 무제한 베팅 포커는 바둑보다 더 까다로운 면이 있다.

실전 도박과 포커 대회에서 널리 쓰이는 '헤즈업 무제한 텍사스 홀덤'(Heads-Up No-Limit Texas Hold'em·HUNL)을 기준으로 따진 경우의 수는 포커가 10^160(10의 160 거듭제곱)으로, 바둑의 10^170(10의 170 거듭제곱) 보다 적지만, '정보의 비대칭성'이 문제다.

바둑은 바둑판에 어떤 돌이 어떻게 놓여 있는지에 관한 정보를 두 플레이어가 똑같이 알고 있는 '정보 대칭' 상태로 하는 게임이다.

그러나 포커는 각 플레이어가 바닥에 내려놓아 공개한 패만 있는 것이 아니라, 각자 자신만 볼 수 있는 카드를 쥐고 겨루는 '정보 비대칭' 게임이다.

정보 비대칭 상태에서 하는 '불완전 정보 게임'에서 최적 전략을 찾는 것은 정보 대칭 상태에서 하는 '완전 정보 게임'의 경우보다 수학적으로 따지기가 더 까다롭다.

[미국과학진흥협회(AAAS) 제공=연합뉴스] Credit: Carla Schaffer/AAAS

이런 까다로움 탓에, 수십년간 포커를 치는 AI 프로그램이 여럿 개발됐으나 바둑 프로그램보다 발전이 더뎠다.

불과 2년 전인 2015년까지만 해도 미국 카네기멜런대의 '클라우디코'라는 컴퓨터 프로그램이 인간 프로 도박사들에게 상당한 격차로 패배했다.

포커 프로그램이 인간 프로 도박사들을 상대로 확연한 우위를 보인 것은 작년 11월 초순부터 1개월간 17개국 33명을 상대로 게임을 한 딥스택이 처음이며, 이를 보고하는 논문 발표도 처음이다. 이 논문은 1월 6일 초안이 온라인으로 공개됐으며, 정식 논문이 이달 3일자 '사이언스'에 실렸다.

이어 올해 1월 11∼30일에는 카네기멜런대가 개발한 클라우디코의 후속 프로그램 '리브라투스'가 미국 피츠버그의 리버스 카지노에서 세계 정상급 프로 도박사 4명과 대결하는 이벤트에서 이들을 모두 꺾었다. 논문 초안은 이벤트 마지막날인 1월 30일 밤에 온라인으로 공개됐고 학회 발표도 이뤄졌으나 아직 정식 학술지 논문은 나오지 않았다.

리브라투스의 전략은 대부분 경우의 수를 미리 계산하는 능력에 의한 것이었으며, 딥러닝(심층학습·deep learning) 방식 학습의 비중은 낮았다. 슈퍼컴퓨터에서 미리 손에 들게 될 패의 조합을 세밀하게 분석해 방대한 데이터베이스에서 가장 좋은 수를 골라내는 방법을 이용했다. 매일 프로그램을 업데이트해 인간 상대의 버릇과 약점을 분석해 반영하기도 했다.

당시 리브라투스는 엄청난 양의 계산을 위해 연산 속도 1.35 페타플롭스(petaflops), 메모리 274 테라바이트(TB)의 사양을 지닌 피츠버그 슈퍼컴퓨팅센터의 슈퍼컴퓨터 '브리지스'를 사용했다. 최고급 랩톱PC 대비 연산 속도는 7천250배, 메모리는 1만7천500배인 슈퍼컴퓨터였다.

이번 사이언스 논문에 실린 딥스택 개발팀의 전략은 이와 전혀 달랐다. 포커 게임 한 판을 여러 단계로 나눠서 계산하는 경우의 수를 추상화해 10^17(10의 17 거듭제곱 = 10경(京))으로 좁히고, 실전의 각 단계에서 고려하는 경우의 수를 10^7(10의 7 거듭제곱 = 1천만)으로 대폭 줄였다.

이는 게임용 PC에 가끔 쓰이는 '엔비디아 지포스 GTX 1080' 그래픽카드 하나만으로 5초 미만에 계산이 가능한 수준이었고, 딥스택이 인간 상대로 포커를 할 때도 이 기계를 계산에 사용했다.

슈퍼컴퓨터가 아니라 게임용 PC 단 한 대만으로도 프로 인간 도박사들을 줄줄이 이겼다는 것이다.

AI의 '직관'을 딥러닝 기법으로 상당한 수준까지 향상해 놓았기 때문에 이런 일이 가능했다.

딥스택 연구팀은 '충분히 많은 훈련과 반복을 거치고 계산 능력을 늘리면 이런 방법으로 딥스택의 능력을 원하는 만큼 향상시킬 수 있다'는 취지의 수학적 증명도 논문에서 제시했으나, 이를 인간과의 대결에서 직접 활용하지는 않았다.

연구팀은 논문에서 포커가 바둑과 경우의 수는 비슷하지만 정보 비대칭성에 따른 불완전한 정보라는 복잡성이 추가돼 있다고 지적하면서 "(인공지능에 의해) 정복된 가장 큰 완전 정보 게임(바둑)과 불완전 정보 게임(포커) 사이의 갭이 거의 다 좁혀졌다"고 자부했다.

이들은 전략적 자원 방어와 의학적 치료 권고 등 불완전 정보 상태에서 결정을 내려야 하는 실제 세계 문제가 많이 있다며 딥스택 개발에 쓰인 전략 탐색 패러다임이 많은 가능성을 열어 줄 것이라고 전망했다.

solatido@yna.co.kr