본문 바로가기

4국으로 나타난 알파고에 대한 궁금증들.













1. 져준것일까?

 

가능성이 높지 않을 것 같습니다.

 

오늘 대국에서 알파고는 78수에 적절히 대응하지 못한 것만으로 그친 것이 아니라 패색이 짙어지자 사람으로서는 절대 하지 않을만한 이상한 수들을 두면서 자멸하였습니다.

 

이는 인공지능이 바둑이 아닌 훨씬 인간생명을 다루는 여러 분야(운전,비행,전쟁,의료 등등..)에 쓰일 것을 목표로 개발되고 있음을 감안할 때 보여서 안될 최악의 모습에 가까웠다고 생각됩니다,

 

질 것 같으면 같은 편에도 폭탄을 떨어뜨리는 전투기, 피할 수 없을 때 마비나 이상한 돌진을 해버리는 자동차 등을 생각해보면 되겠지요.

 

구글의 미래를 생각했을 때 78수에 휘둘려 한게임 진 것으로 보기에는 너무 이상한 행동을 많이 보여준 대국이었다고 생각합니다. 따라서 온전히 이세돌 9단의 힘으로 보아도 될 것입니다.

 

2. 알파고가 뻘 수를 남발한 원인은 무엇일까?

 

사실 이게 저는 제일 궁금한 점입니다. 일단 20대 극초이후 문돌이의 길을 걸은 작성자로서, 인공지능에 대한 내용들은 딥러닝 정도만 얼핏 듣고 있다가 이번 알파고 대전으로 겨우 이것 저것 용어를 알게 된 수준입니다. 따라서 지금 하는 얘기는 다 가정일 뿐이지요.

 

일단 알파고는 신경망으로 이루어진 정책망, 가치망, 그리고 몬테카를로 트리 서치 라는 세가지 알고리듬을 사용한다고 들었습니다.

 

이 중 몬테카를로 트리 서치(이하 MTCS)는 이미 금융 쪽에서는 보편화된 기법이라고 하더군요. 엄청나게 많은 랜덤함수를 발생시켜 근사치를 찾아내는 방법 정도로 알고 있습니다. 일단 알파고나 최근의 다른 바둑 프로그램들은 이 MCTS를 활용한다고 합니다. 대신 알파고는 딥러닝으로 기보를 습득해 정책망을 통해 둘 자리를 보고, 가치망을 통해 둔 자리의 가치를 매겨 이를 통해 MCTS를 계산하는 범위를 줄여주는 역할을 한다고 이해했습니다. 

 

알파고가 이상한 수를 두지 않는 것은 정책망과 가치망의 덕이 크겠지요,.

 

그런데, 오늘 이9단에게 확실히 승기를 밀리기 시작한 무렵부터 그 이전에 두지 않던 떡수(뻘수?)들이 나오기 시작합니다.

 

여기서 의문이 생깁니다. 입력된 기보들의 정책망이 문제인가? 제 생각에는 78수에 대응하지 못한 것은 확실히 정책망의 문제였다고 느껴집니다. 바둑판의 중앙에 대한 기보의 데이터가 귀나 변에 대한 부분보다 적으리라는 점은 확실하니까요. 그런데, 지는 상황에서의 뻘수 또한 정책망의 문제였을까요?

 

제 생각에는 mcts로 높은 확률을 내는 점에 착수한다는 측면이 문제가 되지 않을까 싶습니다. 즉 적절한 승률의 상황에서 mcts로 높은 확률을 내는 점이라는 것은 최적점일 가능성이 높지만, 승률이 매우 낮거나, 매우 높거나 할 때 그 때 mcts가 내놓는 높은 확률의 착점이 최적점이 아닐 가능성이 높지 않을까요?

 

이는 이제까지 알파고의 습성과도 비슷한데, 알파고는 많이 앞서면, 이상한 수를 두는 경향들이 있었습니다. 저는 이것을 이렇게 봅니다. 어디에 둬도 승률이 딱히 떨어지지 않으니, mcts가 내놓은 높은 승률의 점이 최적점이 아니었다. 그런데, 이후에 판이 근소해지면, mcts의 최적점을 찾는 기능이 정상 작동하고, 알파고는 이미 놓아져 있는 뻘수도 모두 계산하여 최선의 점을 착수하니, 나중에 보니 와~ 훌륭한 수…가 되는 결과를 낳았다.

 

그런데, 오늘 가치망에서 계산한 승률이 점점 낮아지니, mcts로 돌려 나온 그래도 높은 확률의 수라는 것이 많은 경우 뻘수였고 알파고는 이리저리 무너지는 모습을 보이게 되었다.

 

다른 의견으로는 기보의 습득량이 부족해서 대응력이 떨어지는 정책망 때문이었다는 의견이 있었습니다만, 제 생각에는 전반적인 경향을 보기엔, 확실히 판세가 고승률 또는 저승률시를 가르칠 때의 대응력이 떨어지는 문제가 있다고 느꼈고, 이는 78수에 잘 대응하지 못한 상황을 설명하는데 더 적합한 것이 아닌가 싶습니다.

 

다만 제가 과문하여 mcts가 그런 결과를 나타낼 수 있는 알고리듬인지 모르겠습니다….

 

3. 알파고가 백을 더 편하게 느끼는 이유는 무엇일까?

 

이 경우도 두가지 견해가 있습니다. 컴퓨터가 아직 판을 이끌어 가는 능력에는 약점을 보인다 VS 7.5집의 덤 때문에 이미 확률에서 밀리며 게임을 시작하기 때문에 인공지능이 제대로 작동하지 않는다.

 

오늘 보았듯 알파고가 아직 완벽한 인공지능이 아니므로, 초반에 판을 이끌어 나가는데 사람과 같은 느낌을 주지 못한다고 표현해도 크게 이상할 것은 없다고 봅니다. 다만, 저는 후자라고 보면 앞서 말한 판세가 크게 유리하거나 불리할 때 이상행동을 보인다는 부분과 잘 어울린다고 생각 합니다. 판세 자체가 7.5집의 덤 때문에 승리 확률이 낮은 상태에서 정책망의 문제이든 가치망의 문제이든 mcts 알고리듬의 문제이든 적절치 못한 수가 나오는 상황이 늘어나고, 이9단도 그것을 느낀 것이 아닐까 합니다. 이9단이라면, 한 두번의 이상확률에 의한 결과도 충분히 크게 느꼈을 테니까 말입니다.

 

이 또한 전문가분이 판단하여야 할 문제이고, 모레 다섯번째 대국을 보면 좀 더 알 수 있겠지요. 이9단이 흑을 선택해버리면서 알파고가 불리할 상황 자체를 없애버리긴 하였지만, 어쨌든 모레도 이9단은 전황을 한번에 뒤집는 묘수를 만들어서 알파고를 당황시키고 그로써 승리를 찾으려 하겠지요. 그 와중에 알파고의 모습을 보면 또 나름의 추론의 근거가 쌓이지 않을까 싶습니다.

 

4. 오늘 대국 보면서 댓글 달고 보던 것을 정리해봤습니다. 이9단이 모레에도 재밌는 바둑 보여줬으면 좋겠구요. 역시 1인자는 괜히 1인자가 아닙니다. 초등 이후로 안 둔 바둑, 인공지능의 발전과 승부사 이세돌의 웃음까지 참 생각할꺼리가 많은 즐거운 행사입니다.