木原直哉オフィシャルブログ

プロポーカープレーヤー、木原直哉が、思ったことを書いていきます。道場やってます。https://lounge.dmm.com/detail/308/

PLOの勝率イメージ

f:id:nkeyno-poker:20190807171540p:plain

PLOです。このハンドの勝率のイメージを考えてみてください。

f:id:nkeyno-poker:20190807171800p:plain

AA93sssが一番有利なのは分かりますが、ではどれくらい?という問題ですね。

JJT5dsが37%もあるのがかなり以外でした。AA999と出ているのでストレートは結構薄いけど、スートが両方生きてるのが大きいんでしょうね。

ダブルペアはプリフロップで入るとやっぱり弱いですね。

 

 

ナイスハンド、というセリフ

ボードが247 Jで相手がオールイン。こちらがAJでコール。相手がKKをショウ。

リバーA

これで逆転勝ち。

まあよく見る光景ですよね。

こういうときに

「ソーリー」ってあまり言っちゃだめだよ、負かすつもりで打ってたんだから謝るのはおかしい、と聞いていたために、

「ナイスハンド」

という言葉を

(いい手を持ってたんですね、でもラッキーしてしまいました。本当はソーリーって言いたいけど言わないようにしなきゃ。でも英語苦手で他に言い方分からない)

というニュアンスで言う人、たまに見かけます。

いや、結構見かけるかもですね。

 

でもですね、これは本当に言わないほうが良いです。

これって、受験に失敗した友達に対して

「よく勉強頑張ったね」

って言うようなものです。

すさまじい煽りだと思いませんか?

負けた相手に対して、ナイスハンド、はそれ級のニュアンスを持つ言葉です。

 

それなら、素直に

「ソーリー」

と言う方が何倍もマシです。

知らずに爆弾を踏んでる人、多い気がしたので、ふと思い立って記事にしてみました。

「ナイスハンド」は、こちらが負けてる状態からそのまま負けた時限定で使うようにしましょう。

 

まあ、今回の例のKK側の立場で言うと、「お前のプレーがヘボだったけどラッキーで勝ったんだ」と煽るニュアンスになるのですが、それをあえて言う人は外国人に結構多いです。その時は煽りと分かった上で、にっこり笑って「サンキュー」って返すのが自分はベストだと思ってます。

AAゲームと、ポラライズされたレンジ

ツイッターで何回か書いてますが、AAゲームというのを思いついて、3回ほどプレーしてますが、めちゃくちゃ面白いかつ勉強になるので、是非やってみてほしいと思って紹介します。

 

ルール

・ポットリミットホールデム

・ヘッズアップ

・BBはAAをスートまで見せてプレーする

・ボタンはAA以外の好きなハンドをプレーする

・81bbキャップ(毎回81bb持ちでプレーする)

 

基本的な手順

・BBがAAを見せ、ボタンは残りの50枚のカードからAA以外の好きな2枚を選ぶ。

・デックはシャッフルする必要なし。単に裏向きに混ぜて、適当に選んでボードにする。

・ボタンは必ずリンプし、BBが3bbにポットレイズからゲームはスタート(無意味なので、毎回フロップで6bbポットからスタートするのが普通)

・リバーは、AA側はベットする意味がない(ハンドバレてるからバリューが無くて、ブラフキャッチするかどうか)ので、自動チェック。

 

基本的な戦略と思惑

・基本的に、BBがプリフロップ、フロップ、ターンとポットを打ったら、リバーはちょうどボタンのポットベットがオールインになる。

(3bb→6bb→18bb→54bb、合計81bb)

・ボタンは基本的にスーコネを選ぶ。BBが見せてないスートのほうが勝率は高いけど、ある程度の頻度でボタンが持ってるスートを選んで、バランスを取る必要がある。

 

 

これを実際にやってみると、スーコネをプレーするということがどういうことなのかすごく感覚的に理解できます。

後、どういう風にブラフを入れるべきなのかもすごく体感的に分かります。

AA側は、3bb勝ちが6割から7割です。フロップでかなりスーコネが降りるんですね。難しいことを言いますが、フロップでコール出来た時、スーコネがポラライズレンジになり、AA側がマージナルハンドになります。

やってみると、如何にポラライズレンジが強いか体感出来ます。

一般的には、リバーで本物:ブラフ=2:1の割合で混ぜてポットベットをするのがボタン側の最適戦略です。すると、実はボタンはリバーでレンジでの勝率が33.4%あれば有利になるのです、少なくてもそのハンドに関しては。元々の勝率は24%くらいなので、フロップをそこそこ選ぶだけで結構達成出来るんですよね。

文章で読んでても本当にわからないので、マジでやってみてほしいです。

そして、具体的にレンジを考えたりする作業は、本当にポーカーのスキル向上に繋がるし、楽しいです。

 

ちなみに、当初は81bbだったらBB側が有利すぎるのではと思ってました。しかし、プレーした後の感想としては、恐らくボタン有利です。確定ではないですが、是非多くの人がプレーして、どっちが有利か議論してみてほしいです!

BBアンティのHUでのプレー

今はWSOPでも、ライブのMTTはBBアンティが主流というレベルを超えて、デフォルトになりました。

人数が少なくなっても、BBアンティの額を変えるべきか変えないべきかは割と議論が今でもありますが、変えないという方がスタンダードになってきてます。

それで、HUを幾つか見て(ポーカーGOでの配信含めて)、すごく気になっている点、かつ、多くのプレーヤーが勘違いしている点について書きたいと思います。

 

例えば1万-2万の2万アンティの場合、BBが二人分のアンティを出します。

これって実は、アンティを二人がそれぞれ出したと考え、2万-3万ブラインドのHUと全く一緒なのです。

2万-3万ブラインドだったら、ボタンからはどういうプレーをしますか?

モア1万点を単に降りることはほとんど無くなると思います。

一般的には、リンプが増えます。2万点出してて、モア1万点で良いのですから。これを降りすぎる人は非常に美味しいです。

また、レイズするならいくらにするでしょうか。

2.5倍なら、7.5万点ですよね。

これって、1万-2万の2万が真ん中に集まっている状態なら、6.5万点へのレイズと一緒です。1万-2万で6.5万点へのレイズは結構大きいイメージがあるかもしれませんが、実は2.5倍と対して変わらないのです。

では、4万点にミニレイズするのは?というと、モア3万点。2万ー3万のブラインドでのメイク5万点(勿論本当にBBが3万点ならこのサイズはミニマムレイズ以下ですが)と一緒なのです。

2万点ー3万点ブラインドで、メイク5万点にされました。BBはほとんど降りないですよね?

それと同じなので、本当は1万ー2万の2万アンティでも4万点のミニマムレイズにはほとんど降りてはいけないのです。5万点のレイズは、普通のHUのミニマムレイズと同じだと思うべきなのです。

そして、殆ど降りないようなレイズをするくらいなら、弱いハンドのリンプを守るため、最初からもうちょっと広く強いハンドと弱いハンドのバランスを取ってリンプし、レイズする時は6万点にレイズ、というようにバランスを取るべきなのです。

HUなんて多くの人はやり慣れて無くて、さらにBBアンティのHUなんてやったことがない人が多いでしょう。ちょっと数学的に考えてみると、今書いたことは言われてみれば当たり前の話だと感じると思います。次にトーナメントで走ってHUをプレーするときに、このポストをちょっと思い出して貰えたら嬉しいです。

 

PLOが美味しい時代は終わった

最近、NLHE以外にも手を出したいと思っている人は多いと思います。

次はPLOかなあとみんな思うと思うのですが・・・

 

自分は2012年位から2017年位まで、NLHEとPLOはかなり立場が入れ替わるのではないかと言ってきてました。

既に高いキャッシュゲームでのNLHEの立ち位置はとっくの間にPLOより下だったし、ミドルレート以下にもそれがかなり波及してくると思ってました。

しかし、自分の予想に反して、PLOが思ったよりも伸びなかったです。

正直、これからPLOをメインでやろうとするのは非常に先が苦しい状況にあると言わざるを得ません。

 

PLOはNLHEと比べて、ある程度ルースに打っても勝てる時は勝てるし、戦略が確立されてなかったので、弱いプレーヤーがNLHEからどんどん流れて来てました。

しかし、最近はPLOに関してもかなり戦略が確立されつつあり、2012年頃のPLOと今のPLOは本当に違うゲームのようになってます。

そして、何より大きいのが、そういうことを弱いプレーヤーが理解するようになったのです。PLOもしっかり勉強しないと中期的にすら勝てない、と。

 

それでも、ハイレートのキャッシュゲームでは、NLHEよりPLOの方が依然としてアクションがあります。

しかし、超ハイレートのアマチュアPLOプレーヤーは、NLHEと同様に強いプロを排除して身内だけのゲームばかりやるようになってきてます。

ミドルレート以下のNLHEは少ししかアクションが減ってないですが、PLOに関しては激減したと感じます。

 

じゃあその層はどこに行ったのか。それはミックスゲームです。

一度NLHEからPLOに移った人は、二度とNLHEメインには戻りません。

そうやってゲームを変えることが出来る人は、やはりミックスゲームに移行することも出来るんですね。

ミックスゲームなら、テーブルを立てる立場になれば、自分が好きなゲームを入れることが出来るし、30種類とかそれ以上のゲームを全てしっかり打てるプレーヤーなんて本当にごく少数だと言うことをみんなよく理解してます。

更に、ミックスゲームは長考しないからサクサク打てるし、リミットゲームなのでテーブルでの会話も普通に出来ます。やはりそっちになるんですよね。

 

もちろん、ミックスゲームの一種としてのPLOをやる価値は依然として高いです。

しかし、PLO一本で登りつめたいと思うのは、多くの人が思っている以上にレッドオーシャンなのです。

 

(追加)

5-10を打てればそれ以上のレートに行くつもりは一切ない、という人ならNLHEだけでいいし、もっと上のレートまで行きたいと思うならミックスゲームは避けられない。でも、PLOは打てて損はしないけど、どっちにしても・・・というのが正直な感想です。

 

ポーカーAIは駆け引きをしない

ポーカーAIのニュースが流れてから、関連のツイートで

「ついにAIが駆け引きを出来るようになった」

というようなツイートをかなりたくさん見ました。

それについて、非常に大きな勘違いであることをはっきりと言いたいと思います。

 

まず、多くの人が理解しているように、人間同士のポーカーの勝負はかなりの部分で駆け引きが存在します。

というか、ポーカーの醍醐味のかなりの部分を、駆け引きが占めると言ってもあながち間違いではないです。感じ方はもちろん人それぞれですが。

 

「あいつにチップ取られたから取り返したい」

「あいつは自分にチップを取られたのを取り返したいと思ってるだろうからここはこうプレーしよう」

 

また、

「あいつはここまで全然ブラフをしていないから、ブラフをしない人の可能性が高い」

「ここまでブラフするチャンスが全く無くて、手固い人だと思われているだろうから、ストーリーのあるブラフをするチャンスがあればかなり成功するはず。そのチャンスを伺おう」

 

こういうのが駆け引きです。

しかし、こういう思考はAIは一切持っていないのです。

ではポーカーAIはどうやって勝つのか。

それは、わかりやすく説明すると

「ここで自分が持ちうる手はAとBとCとDで、相手が持ちうる手はEとFとGとH。ここでXドルのベットをY%で行うときの期待値を計算する。

それぞれの手を合計して、期待値が最大化するようなXとYの組み合わせを計算する」

という感じなのです。

これはわかりやすさを意識して説明結構飛ばしてますし、そもそも自分はAIの中身を見たことはないので何とも言えないですが、まあ大体間違えてないでしょう。

 

つまり、一回一回の手を単体で考え、他の手を持っているときとのバランス(ポーカーに於けるキーワード的なものです)を取る。その結果、最善のプレーは何かを計算するのです。

このAI的なプレーの背景には、一切駆け引き要素はありませんよね。それが

「ポーカーAIは駆け引きをしない」

ということなのです。いや、より突っ込んでに言うのであれば、

「ポーカーAIは駆け引きが出来ない」

とも言って良いかと思います。

ポーカーだって囲碁や将棋と同じゲームなのであって、確かに駆け引きをしなくても、ミスをせず淡々とプレーできていれば勝てるのです。

人間同士だと、将棋であっても、相手がXXという戦法が得意だから、あえて少し損をしてYYという戦法に持ち込もうとかあるわけですが、トッププロと同等やそれを超えるレベルになると、そんな駆け引きは必要ないのです。AIにはまだ不可能という以前の話で。

 

しかし、人間はAIよりずっとずっとミスをします。

あえて10のミスをすることで、相手から30のミスを引き出せるのであれば、むしろその方が得だったりもしますし、ポーカーのトッププロはその力にも長けてます。

ポーカーに限らず、人間同士の勝負はそういう駆け引きの要素がどんなゲームでもかなり大きく、それがゲームをより楽しいものにしているのです。

ポーカーAIがポーカートッププロに勝ったと宣言するのは時期尚早である

https://www.afpbb.com/articles/-/3234875

 

今、フェイスブックカーネギーメロン大学が共同で開発したポーカーAIが人間に勝ったとの話題で持ちきりです。

しかし、それは今回の実験からは時期尚早だと思います。その根拠を具体的な数字でポーカープロの目線から説明していきたいと思います。

 

https://ai.facebook.com/blog/pluribus-first-ai-to-beat-pros-in-6-player-poker/

元々の論文の詳細については、この記事です。

 

まず、AI5人対人間1人の対戦です。

これに参加したのは3人。

クリスファーガソン、ダレンエリアス、ライナスの3人です。

この中で、ライナスは今6人NLHEで世界最強の一人と多くの人が認めている正真正銘のトッププロ、将棋の現タイトルホルダーと言っていいレベルでしょう。

ダレンエリアスも今のトッププロの一人です。彼が現タイトルホルダー急かというと賛否両論があるとは思いますが、世界トップ100に入るかと言われたらほとんどのプロは入るということに同意するでしょう。

クリスファーガソンはWSOPメインイベントの優勝者で、知名度も抜群に高いプロです。しかし、NLHEで世界トップ100に入るかと聞かれたら、入らないと言うプロが9割型だと思います。基本的にタイトで堅実なプレーヤーで崩れにくく入賞率が高いプレーヤーですが、ブラフ頻度が適正より低く、与しやすいという印象を自分は持っています。

それぞれ5000ハンドずつプレーしました。

しかし、5000ハンドと言うのは非常に少なく、正直プロが強めのアマチュア相手ならマイナスしてもおかしくない数字でもあります。

そこで、研究チームは、AIVATという手法を使ったとのことです。

AIVATは、強い手が配られたら、その分運が良かったと判断して勝ちから差し引く、というような手法です。

その手法を適用した後で、ダレンエリアスは4.0bb/100の負け、クリスファーガソンは2.5bb/100、ライナスは0.5bb/100の負けという評価となったとのことです。標準偏差は大体2bb/100程度。

まず、「AIVATという手法が完全に正しいと仮定して」、ダレンエリアス相手にはしっかり勝ち越し、クリスファーガソンには勝ち越している可能性が高い、ライナス相手にはほぼ五分という結果です。

ダレンエリアスに勝ち越しは非常に評価出来ます。

一方、クリスファーガソン相手に2bb/100というのは非常に物足りなく、その数字を出すポーカープロはわんさかいるでしょう。

また、世界最強の一人とされるライナス相手にはほぼ五分です。

この時点で、ポーカートッププロ相手に勝ったと宣言するのは時期尚早だと思うわけです。追いついたという評価ならともかく。

 

 

さらに、AIVATという手法がどの程度正しいものなのかも、非常に懐疑的です。

そもそも、その理論が論文になっているからと言って、それがどの程度広く受け入れられているのかという疑問がまずあります。論文として出ていても、実際全然認められていない論文もあるでしょう。

とはいえ、ここはその世界を知らないので、一旦正しい手法だと信じるとします。では、その評価法についてです。

例えば、AAが配られたらそれは当然幸運です。じゃあ、その幸運をいくらと評価すれば適正なのでしょう。もちろん対戦相手に何が配られるかに依るのでしょう。またコールされた場合、どんなフロップが来たらどれだけ得/損なのでしょう。

それを評価しないことには、AIVATという手法を用いた計算をすることは不可能だと思います。もし、神の視点と言えるくらい強いソフトが存在するのであれば、その数値を信用することも出来ます。バックギャモンXGというソフトが、ほとんど神の視点に近い強さだと広く信じられているので、その数値を人間は(それでもある程度)信用しています。

しかし、ポーカーに関しては、その評価をいかに計算するのでしょうか。

将棋のAI同士の対戦で、AというソフトとBというソフトが戦ったとします。

評価値という数字を見たことがある人は多いと思いますが、Aというソフトで評価させると、大体Aの側の評価を高く見積もります。ある意味当然のことではありますが。

ではAIVATという手法を用いて運を評価した時に、その評価された数値を計算するのはやはり Pluribus、今回のAIの評価、を用いざるを得ないでしょう。仮にAIVATという手法そのものが正しかったとしても、それは本当に公正に運を補正したものになるのでしょうか。自分は甚だ懐疑的です。

 

 

そこまで書いた上で、次に1万ハンドをAIが1,人間が5という状態で行った実験結果を見てみます。この人間5というのは、前述の3人の他に複数のプロが混じってます。

その結果ではAIがAIVATでの評価後で+5bb/100という数字、500bbの勝ちという結果になってます。

 

しかし!!!

http://kevinwang.us/lets-analyze-pluribuss-hands/

実はこの人が公開された棋譜を解析したところ、AIは1万ハンドで700bbの負け越しだったのです!

まあ、実際に引かれて運が悪かったのは間違いなかったようで、オールインした時にそのときの勝率でポットを分配した、AIEVでは、150bbの負け越し、550bbはオールイン後に引かれた数字です。

ところで、NLHEでは100ハンドでの標準偏差は大体60bbくらいです。

10000ハンドだと、その10倍の600bbくらいです。(そこの話が飛んだと思う人はぜひ統計学をちょっとだけかじってください)

この数字はAIEVでの運の補正前の標準偏差です。

「結果で700bb負けてたけど、AIVATでの運の補正を入れたら500bb勝ちだから、運の要素がなかったら勝ち!」

と言っているわけですが、1200bbほどツイてなかったという主張は、実は2シグマに相当するくらいツイてなかったと主張しているわけです。2シグマという数字は、統計学で棄却されるかどうかのボーダーラインの数字です。それだけの数字の補正を、具体的にどれくらいの補正をしたかという数字を出されずに盲信できるほど、ポーカープロはお人好しではないです。

(しかも、人間の中にトッププロとは程遠い、非常に弱いプレーヤーが1人居たと多くの人が言っていたりもします)

 

 

彼らの過去

 

更に、実質的にこのAIを開発したカーネギーメロン大学チームは2015年に

https://en.wikipedia.org/wiki/Claudico

人間とAIとの8万ハンドに及ぶ1対1の勝負をしました。

その結果、人間が7327bbの勝ち越し、9bb/100という結果を人間が出したのです。これは通常のHUでの標準偏差的にも2シグマに非常に近い数字でした。さらに、この時は、AIがプレーしたハンドと全く同じハンドを別の人間がプレーするという、かなり運の要素を減らした条件での対戦だったのです。

しかし、カーネギーメロン大学チームは対戦後

「2シグマ圏内だったので、運の範囲内だったから、勝負はイーブン。なので、AIは人間に追いついた」

と発言して、ポーカー界から大バッシングを受けたという過去があります。

 

2017年に同じ条件で再戦して、その時は人間が破れました。その時の記事は話題になったとは思いますし、自分も寄稿させていただきました。

https://www.itmedia.co.jp/pcuser/articles/1702/03/news028.html

 

そのような過去を持つ開発チームによる今回の勝利宣言。

 

さまざまな観点から見ても、自分はこの結果を冷静に見るとポーカーAIがトッププロを超えたと言い切るのは時期尚早だと思うわけです。

 

正直、2015年の1対1の対戦前は、既に人間が負け越すと思ってました。今回も、人間が負けるのかと思ってました。しかし、それに反して人間のトッププロは強さを見せつけました。

今回のこの実験結果は、どういう観点からみても、AIが人間のトップに勝ったとは言えない内容でしかないです。

恐らく2021年に同様の実験をまたやって、その時は人間は完敗するのだと思います。しかし、そのXデーは2019年ではなかったのです。