유저 노하우 공유

최적의 게임이론 (펌)

작성자 정보

  • flabel 작성
  • 작성일

컨텐츠 정보

본문

최적의 게임이론은 포카판에서만 사용하는것 뿐만 아니라 승부를 거는 상황이 왔을 때 적용하면 굉장히 좋은 듯합니다.


저도 예전에 이 글을 몇번씩 읽고 게임이든 승부 상황이 되었을때 도움이 되었던 내용이라 공유합니다.


--------------------------------------------------


HUSNG를 공부하는 많은 학생들은 적어도 내쉬 균형 차트에 대해서는 알고 있을 것이다.


이것은 스몰 블라인드일 때, 숏스택이라서 프리플랍에서 올인 혹은 폴드만 할수 있는 경우의 전략을 알려준다.


균형이라는 것은 상대편이 자신의 전략을 수정하려고 할 때 더 안좋은 결과를 얻게 만드는 상태를 말한다.


따라서, 완벽한 포커 플레이어들 이라면 서로 영원히 똑같은 후반부 전략을 가지고 플레이하게 된다.




하지만 적은 사람만이 알고 있는 사실은, 이 내쉬 균형의 컨셉은 후반부에 올인-폴드의 경우에만 쓸 수 있는게 아니라는 것이다.


어떤 스택 크기를 가지고 있던지 간에, 플레이어들 서로에게 완벽하지만 복잡한 내쉬 균형이 존재하게 된다.


존 내쉬는 이 내쉬 균형의 개념으로 노벨상을 받았는데, 헤즈업 포커는 이 내쉬 균형이 쓰이기에 알맞은 게임 조건들을 가지고 있다.


그러나, 내쉬 균형에 대해서 몰랐다고 실망할 필요는 없다 - 예를 들어 탐 드완은 최근에 이런 균형 전략이 틀렸다고 강력히 주장하고 있기 때문이다.


만약 드완이 이 균형 전략이 틀렸다는 것을 증명할 수 있다면, 그는 프로 포커 플레이어로써는 처음으로 노벨 상을 받지 않을까 싶다.




방금의 논의에서 알아둬야 할 점은, 당신이 전략을 잘 짜서 상대편으로 하여금 당신에게서 이득을 취할 수 없게 만들 수 있다는 것이다.


사실은, 상대편이 최적의 게임 이론 전략 (Game Theory Optimally, GTO) 을 펼치지 않는다면 상대편은 항상 손해를 보게 될 것이고, 따라서 이 전략에 대해서 고민해 볼 가치가 있다.


GTO를 사용하지 않는다는 것은 점점 익스플로잇 당할 수 있다는 것 이기 때문이다.




GTO를 계산하는 것은 아주 어렵지만, 일반적인 상황에서 어느정도 균형있는 레인지는 알 수 있다.


포지션의 개념 때문에, GTO에서 스몰 블라인드의 전략은 아주 공격적으로 빅 블라인드를 압박하고 균형의 범위 안에서 가능한 많이 블러핑을 해야 한다.


이것은 터프한 상대를 만났을 때, 밸류가 있는 스몰 블라인드 핸드로만 플레이 한다면 익스플로잇 당할 가능성이 있다는 것을 알려준다.


또한, 플랍에 체크-레이즈를 하고 턴과 리버에 벳을 한다면, 당신은 균형의 범위 안에서 밸류 핸드와 함께 수많은 블러핑 핸드를 당신의 레인지에 포함 할 수 있다는 것도알려준다.




균형있는 플레이를 한다면 익스플로잇 당하지 않는다는 사실에, 수많은 포커 플레이어들이 매료 되어서, GTO에 아주 가까운 전략을 구사하려고 한다.


상대편이 당신을 이길 수 없다는 것은 아주 매력적으로 다가온다는 것이다.


하지만, 당신이 익스플로잇 당하려고 하지 않을 때마다, 당신은 상대편을 최대로 익스플로잇 할 수 있는 기회를 잃게 된다.


따라서, 만약 당신의 목표가 포커로 가능한 많은 돈을 버는 것 이라면, 익스플로잇 당하지 않는 플레이는 앞뒤가 맞지 않는 것이다.


대부분의 경우에 GTO대로 플레이 한다면 당신은 많은 기대치를 포기하는 것 이기 때문이다.


왜냐하면 당신은 DogLoverAA와 같은 일반 사람과 플레이 하는 것이지, 필 아이비랑 플레이 하는 것이 아니기 때문이다.


포커를 멋지고 화려하게 이론대로 치다가 돈을 적게 버는 위험이 있다는 것을 조심해야 한다.




더구나, "자 이제부터 GTO대로 플레이 하자" 라고 말하는 것은 쉽지 않다.


75bb에서 GTO 플레이를 어떻게 해야 하는지는 어렵고 복잡해서 대부분의 사람이 알지 못하기 때문에, "그래 이제부터는 완벽한 포커를 쳐 볼까", 라고 말할 수가 없다는 것이다.


따라서, 이 책에서 알려주는 많은 조언들은 GTO 보다는, 일반적인 성향을 가진 상대를 익스플로잇 하고, 이득을 최대화 할 수 있는 방법을 알려줄 것이다.


이것은 반대로, 내가 알려준대로 하면 익스플로잇 당할 수도 있다는 것인데, 이것을 겁낼 필요는 없다.


왜냐하면 당신의 상대는 GTO대로 플레이 하지 않기 때문이다.


만약 상대편이 적응해 나간다면, 그에 따라서 당신도 맞춰가야 한다.


그런데 수많은 게임을 해 봤지만, 익스플로잇에 최적으로 적응해 나가는 상대는 거의 보지 못했으니 크게 걱정하지 않아도 된다.




아무리 잘 익스플로잇 할 수 있는 전략을 짜도, 이것 또한 익스플로잇 당할 수 있다.


그저 게임을 시작하면, 당신이 익스플로잇 할 수 있다고 생각하는 빈도들로 플레이 해야 한다.


게임 이론을 통해 다양한 상대에게 알맞은 포커 전략을 세우는 것은 물론 당신에게 도움을 줄 것 이지만, 정해놓은 전략의 숫자들에 목매어 돈을 덜 따게 되는 것은 언제나 조심해야 한다.










번역자 생각


--------------------------------


제가 번역한 것 중에


빈도: 여러가지 수치들을 말합니다. VPIP, PFR 이런것들요.


익스플로잇: 비슷한 한글말을 뭐로 할지 잘 감이 안와서 그대로 썼습니다. 직역하면 '잘 이용하다' 혹은 '착취' 정도가 되겠습니다. 즉 돈을 빨아먹는다는 것이지요.






게임 이론을 모르는 분들을 위해서.


제가 아는 걸 써봅니다. 따라서 틀린 말이 있을 가능성도 농후.




여기서 게임 이론이라고 할 때 게임은 포커를 말하는게 아닙니다.


그냥 게임 이론이라는 경제학 안에 한 분야가 있습니다.


게임 이론에서는 합리적인 플레이어들과 게임 규칙과 보상이 주어져 있습니다.


여기서 합리적인 플레이어란, 자신의 보상을 최대화 하려고 하는 것으로 가정합니다.


따라서 포커에 아주 잘 들어맞는 상황 처럼 느껴집니다.


실제로는 포커 뿐 아니라, 기업간에 전략, 나라 간의 전략까지도 모델 할 수 있지만, 실제 세상은 너무 복잡해서 규칙이나 보상 같은 부분을 정하기가 어렵기 때문에, 만들어진 초창기에 선풍적인 인기를 끌다가, 요즘에는 좀 시들해졌죠.




내쉬 균형이라는 것은, 위에 본문에서 설명드린대로 플레이어들이 다른 전략을 취할 유혹이 없다는 것 입니다.


즉, 상대편이 내쉬 균형 전략을 쓸 때, 나도 내쉬 균형 전략을 써야지, 안그러면 손해본다는 말 입니다.


가장 유명한 게임이론의 예로는 죄수의 딜레마가 있으니 이것으로 설명해보겠습니다.




도둑1, 도둑2 가 잡혀서 서로 따로 방에서 취조를 받습니다.


그래서 둘은 서로 짜서 경찰들을 익스플로잇 할 수가 없는 상황입니다. (ㅋㅋ 익스플로잇이란 단어가 떠오르네요)


단서가 좀 부족해서 경찰은 이렇게 딜을 걸죠.




 


 도둑 1 자백 


 도둑 1 묵비권 


 도둑 2 자백 


 둘 다 3년 감방 


 도둑 1은 10년, 도둑 2는 풀려남 


 도둑 2 묵비권 


 도둑 1은 풀려남, 도둑 2는 10년


 둘 다 1년 감방




즉, 너보다 옆에 갇혀있는 애가 먼저 불면 너는 10년을 감옥에서 살지만, 너가 먼저 불면 너는 풀려난다.


라고 꼬시는 겁니다.


그러면, 어떻게 하는게 도둑들로써는 최선일까요?


결과는 참 재미있습니다.




위에 표를 보시면 도둑 두 명 모두에게 제일 좋은 것은 둘 다 묵비권을 행사해서 1년씩만 살고 나오는 것 입니다.


따라서 도둑 1이 전략을 "묵비권"으로 짰다고 합시다.


이 상황에서, 도둑 2가 자신의 전략을 "묵비권" 이 아닌, "자백" 으로 한다면, 자신은 바로 풀려나니까 더 이득입니다.


따라서 도둑 2는 "자백" 전략을 택할 유혹이 생기게 됩니다.


이 사실을 도둑 1이 알았다고 해 봅시다.


그러면 자신이 "묵비권" 전략을 그대로 가져간다면 10년동안 감옥에서 살게 생겼으니, 자신도 "자백" 전략으로 바꿉니다.


그렇게 되면 결과적으로 둘 다 "자백" 전략이 되었습니다.




그러면 이제 상대편이 "자백"이라는 전략을 썼을 때, 내가 "묵비권"으로 바꿀 유혹이 있을까요?


없습니다.


바꿔봤자 "자백" 전략으로 3년 옥살이를 하는 것에서 "묵비권"으로 10년 옥살이로 바뀌어서 손해이기 때문입니다.


따라서 플레이어들 간에 내쉬 균형은 "자백" 이 됩니다.




한 걸음 물러서서 생각해보면, 둘 다 "묵비권"을 사용한다면 1년만 살고 나와도 될 것을, "자백"을 선택하는 유혹 때문에 3년씩 살고 나오게 됩니다.


이것 때문에 죄수의 딜레마 라는 이름이 붙었습니다.


이 부분이 본문에서 언급한 것 중에, GTO를 사용하면 손해는 보지 않지만, 이득을 최대화 하지 못한다. 라는 부분에 해당될 것 입니다.




좀 더 이야기를 진행해 보겠습니다.


만약, 이 죄수들이 마음을 고쳐먹지 못하고 밖에 나와서 또 같이 범행을 저지르는 것을 반복한다고 해 봅시다.


그러면 이 죄수들의 전략은 어떻게 바뀔까요?


저번에 잡혔을 때, 도둑 1이 "자백"을 택하고, 도둑 2는 "묵비권"을 행사했다고 해 봅시다.


그러면 도둑 2는 생각에 도둑 1이 또 "자백"을 할 것이라 생각하고 자신도 "자백"을 할 수도 있겠고요,


도둑 1은 저번에 도둑 2가 "묵비권"을 썼으니, 이번에도 "묵비권"을 써서 1년만 살고 나오자고 생각할 수도 있겠습니다.


게임 이론 측면에서 어떤 것이 내쉬 균형인지는 여기서 다루지는 않겠습니다.




다만 이것을 포커와 연결시켜 보면, 이것은 우리가 포커를 한 상대와 여러 판 치는 것과 같은 것 입니다.


이전 판에 친 정보를 바탕으로 계속해서 나의 전략을 수정해 나가니까요.


따라서 제 생각에는 GTO 차트는 '한 판'에 유용하지, '여러 판' 진행해 나가면 상대편이 나의 GTO 차트를 익스플로잇 하는 전략을 짤 수 있게 된다고 생각합니다.


(제가 이 차트를 써보질 않아서 잘 모름)


어쨋든 그래서 본문에 상대에 맞춰서 나의 전략을 수정해야 한다는 말이 있는 것 같고요.




그리고 게임 이론과 포커를 더 생각해 보면,


우리는 똑같은 상황이 와도 어떤 때는 블러핑 하고, 어떤 때는 폴드하고 등등 계속 다르게 플레이 합니다.


즉, 확률적으로 내 전략을 선택한다는 것 인데요, 이것은 게임이론에서 mixed strategy (혼합 전략) 이라고 불립니다.


위에서 죄수의 딜레마에서는 static strategy (고정된 전략)을 사용했지요.


많은 경우에, 게임 규칙과 보상이 주어지게 되면, 내쉬 균형은 여러 개가 존재 합니다.


그 이유는 '고정된 전략'을 사용 하는 경우 균형이 몇 개 없어보이지만, '혼합 전략'을 사용하는 경우 눈에 잘 보이지 않는 전략 역시 내쉬 균형이 될 수 있기 때문입니다.


그리고 '고정된 전략'에는 내쉬 균형이 없는데, '혼합 전략'에만 내쉬 균형이 있는 경우도 있습니다.


그래서 본문에서 GTO를 구하는 것은 어렵다고 해 놓은 것 입니다.


고려할 변수들도 너무 많고, 상대편이 언제나 '합리적인' 플레이어가 아닐 수도 있기 때문이고, 등등 입니다.




그래서 저자도 자꾸, GTO 대로만 치지 말고 더 좋은 방법을 생각해라 라고 하는 것 같습니다.


관련자료

댓글 0
등록된 댓글이 없습니다.

공지글


인기글


  • 글이 없습니다.

최근글


  • 글이 없습니다.

새댓글


  • 댓글이 없습니다.
  • 바카라랭킹

  • 경험치랭킹

알림 0