인공지능 구조와 원리, 바둑 AI '알파고'로 배운다

이제은 / 2019-07-20 16:44:21

"AI가 인류 역사상 최대 수준의 혁명을 불러올 것이다" "앞으로 한국이 집중해야 할 것은 첫째도 인공지능, 둘째도 인공지능, 셋째도 인공지능이다"

최근 일본 소프트뱅크의 손정의 회장이 청와대를 방문, 문재인 대통령을 예방한 자리에서 교육·정책·투자·예산 등 각 분야에서 전폭적인 AI 육성책을 마련해야 한다고 조언한 말이다.

인공지능 도서 시리즈를 출간하고 있는 출판사 제이펍이 이번에는 2016년 이세돌과의 바둑 대결로 주목을 받은 바둑 AI '알파고'에 관한 책을 출간했다. 당시 이세돌과 대결에서 최종 4승 1패로 알파고의 승리는 바둑에 관심 없는 사람들에게도 화제가 됐다. 

이 책은 바둑 AI가 무엇이며, AI에게 있어 바둑이 얼마나 힘든지를 설명한다. 또 기존 머신러닝으로 '다음의 한 수'를 도출하는 방법도 설명한다.

'필기체 숫자 인식'을 사례로 들어 딥 러닝의 하나인 컨볼루션 신경망을 설명한다. 또한, 2개의 컨볼루션 신경망인 SL 정책 네트워크와 밸류 네트워크의 구조와 학습 방법을 설명한다.

강화 학습의 기본적인 구조를 설명하기 위해 멀티 암드 밴딧 문제와 미로의 사례를 소개한다. 또한 SL 정책 네트워크끼리 스스로 대국을 시켜 더 강한 정책 네트워크를 획득하는 알파고의 강화 학습 방법도 소개하고 있다.

그렇다면 바둑 AI는 어떤 방법으로 다음 수를 예측할까. 2006년에 '몬테카를로 트리 탐색'이라는 획기적인 기술이 탄생한다. 이 책에서는 랜덤 시뮬레이션의 승패를 바탕으로 조금씩 트리를 성장시키는 몬테카를로 트리 탐색의 원리와 특징을 설명한다.

직관력의 딥러닝, 경험으로 배우는 강화학습, 예측을 잘하는 탐색, 3개의 도구를 잘 조합해 알파고가 완성된다. 어떻게 SL 정책 네트워크와 밸류 네트워크를 몬테카를로 트리 탐색에 통합하는지도 알려준다.

네이처에 소개된 논문 '인간의 지식 없이 바둑을 연구하기(Mastering the game of Go without human knowledge)'에서 다루는 알파고 제로에 관해 설명한다.



위의 그림처럼 알파고는 딥 러닝, 강화 학습, 몬테카를로 트리 탐색의 우수한 성질을 모아서 엔지니어의 창의성과 독창성의 조합으로 만들어 낸 작품이다. 각각의 요소에는 '머신러닝' 기술이 사용되는데 이것은 사람의 학습 방법과 비슷하기도 하고, 때로는 다르기도 하다.

이는 각각의 특성이 다르기 때문이다. △ 딥 러닝: 직관력이 뛰어난 AI. △ 강화 학습: 경험을 축적하며 배우는 AI. △ 몬테카를로 트리 탐색: 예측 능력을 향상시키는 AI이다.

특히 이 책에서는 알파고의 차기 버전인 '알파고 제로'에 대해서도 설명한다. 여기서 중요한 것은 SL 정책 네트워크와 밸류 네트워크를 통합한 '듀얼 네트워크'의 개념이다.

2016년 이세돌이 알파고에 거둔 1승은 아직까지도 인간이 바둑 AI를 공식 대전에서 이긴 유일한 기록으로 남아 있다. 당시에는 크게 와 닿지 않았다. 하지만 이 기록은 앞으로 더 큰 의미와 역사를 가진다. 인공지능과 인간의 바둑 능력의 한계치가 있기 때문이다.

한때 세계랭킹 1위를 달리던 이세돌은 알파고 대국 이후 국내외 젊은 기사들에게 그 자리를 내주었다. 올해를 끝으로 은퇴한다고 한다는 소식이 들린다.

이처럼 인간은 세월의 변화를 실감하며 최고 자리에서 내려오지만, 인공지능은 더 무섭게 진화하고 있다. 어찌 생각하면 참 섬뜩한 현실이기도 하다. 이는 우리가 인공지능에 더 관심을 두고 공부해야 할 또 하나의 이유가 아닐까.

KPI뉴스 / 이제은 기자 lsy@kpinews.kr 

[ⓒ KPI뉴스. 무단전재-재배포 금지]

이제은

이제은

SNS