ポーカーAIがポーカートッププロに勝ったと宣言するのは時期尚早である

https://www.afpbb.com/articles/-/3234875

今、フェイスブックとカーネギーメロン大学が共同で開発したポーカーAIが人間に勝ったとの話題で持ちきりです。

しかし、それは今回の実験からは時期尚早だと思います。その根拠を具体的な数字でポーカープロの目線から説明していきたいと思います。

https://ai.facebook.com/blog/pluribus-first-ai-to-beat-pros-in-6-player-poker/

元々の論文の詳細については、この記事です。

まず、AI５人対人間１人の対戦です。

これに参加したのは３人。

クリスファーガソン、ダレンエリアス、ライナスの３人です。

この中で、ライナスは今６人NLHEで世界最強の一人と多くの人が認めている正真正銘のトッププロ、将棋の現タイトルホルダーと言っていいレベルでしょう。

ダレンエリアスも今のトッププロの一人です。彼が現タイトルホルダー急かというと賛否両論があるとは思いますが、世界トップ１００に入るかと言われたらほとんどのプロは入るということに同意するでしょう。

クリスファーガソンはWSOPメインイベントの優勝者で、知名度も抜群に高いプロです。しかし、NLHEで世界トップ１００に入るかと聞かれたら、入らないと言うプロが９割型だと思います。基本的にタイトで堅実なプレーヤーで崩れにくく入賞率が高いプレーヤーですが、ブラフ頻度が適正より低く、与しやすいという印象を自分は持っています。

それぞれ５０００ハンドずつプレーしました。

しかし、５０００ハンドと言うのは非常に少なく、正直プロが強めのアマチュア相手ならマイナスしてもおかしくない数字でもあります。

そこで、研究チームは、AIVATという手法を使ったとのことです。

AIVATは、強い手が配られたら、その分運が良かったと判断して勝ちから差し引く、というような手法です。

その手法を適用した後で、ダレンエリアスは４．０ｂｂ/１００の負け、クリスファーガソンは２．５ｂｂ/１００、ライナスは０．５ｂｂ/１００の負けという評価となったとのことです。標準偏差は大体２ｂｂ/１００程度。

まず、「AIVATという手法が完全に正しいと仮定して」、ダレンエリアス相手にはしっかり勝ち越し、クリスファーガソンには勝ち越している可能性が高い、ライナス相手にはほぼ五分という結果です。

ダレンエリアスに勝ち越しは非常に評価出来ます。

一方、クリスファーガソン相手に２ｂｂ/１００というのは非常に物足りなく、その数字を出すポーカープロはわんさかいるでしょう。

また、世界最強の一人とされるライナス相手にはほぼ五分です。

この時点で、ポーカートッププロ相手に勝ったと宣言するのは時期尚早だと思うわけです。追いついたという評価ならともかく。

さらに、AIVATという手法がどの程度正しいものなのかも、非常に懐疑的です。

そもそも、その理論が論文になっているからと言って、それがどの程度広く受け入れられているのかという疑問がまずあります。論文として出ていても、実際全然認められていない論文もあるでしょう。

とはいえ、ここはその世界を知らないので、一旦正しい手法だと信じるとします。では、その評価法についてです。

例えば、AAが配られたらそれは当然幸運です。じゃあ、その幸運をいくらと評価すれば適正なのでしょう。もちろん対戦相手に何が配られるかに依るのでしょう。またコールされた場合、どんなフロップが来たらどれだけ得／損なのでしょう。

それを評価しないことには、AIVATという手法を用いた計算をすることは不可能だと思います。もし、神の視点と言えるくらい強いソフトが存在するのであれば、その数値を信用することも出来ます。バックギャモンはXGというソフトが、ほとんど神の視点に近い強さだと広く信じられているので、その数値を人間は（それでもある程度）信用しています。

しかし、ポーカーに関しては、その評価をいかに計算するのでしょうか。

将棋のAI同士の対戦で、AというソフトとBというソフトが戦ったとします。

評価値という数字を見たことがある人は多いと思いますが、Aというソフトで評価させると、大体Aの側の評価を高く見積もります。ある意味当然のことではありますが。

ではAIVATという手法を用いて運を評価した時に、その評価された数値を計算するのはやはり Pluribus、今回のAIの評価、を用いざるを得ないでしょう。仮にAIVATという手法そのものが正しかったとしても、それは本当に公正に運を補正したものになるのでしょうか。自分は甚だ懐疑的です。

そこまで書いた上で、次に１万ハンドをAIが１，人間が５という状態で行った実験結果を見てみます。この人間５というのは、前述の３人の他に複数のプロが混じってます。

その結果ではAIがAIVATでの評価後で＋５ｂｂ/１００という数字、５００ｂｂの勝ちという結果になってます。

しかし！！！

http://kevinwang.us/lets-analyze-pluribuss-hands/

実はこの人が公開された棋譜を解析したところ、AIは１万ハンドで７００ｂｂの負け越しだったのです！

まあ、実際に引かれて運が悪かったのは間違いなかったようで、オールインした時にそのときの勝率でポットを分配した、AIEVでは、１５０ｂｂの負け越し、５５０ｂｂはオールイン後に引かれた数字です。

ところで、NLHEでは１００ハンドでの標準偏差は大体６０ｂｂくらいです。

１００００ハンドだと、その１０倍の６００ｂｂくらいです。（そこの話が飛んだと思う人はぜひ統計学をちょっとだけかじってください）

この数字はAIEVでの運の補正前の標準偏差です。

「結果で７００ｂｂ負けてたけど、AIVATでの運の補正を入れたら５００ｂｂ勝ちだから、運の要素がなかったら勝ち！」

と言っているわけですが、１２００ｂｂほどツイてなかったという主張は、実は２シグマに相当するくらいツイてなかったと主張しているわけです。２シグマという数字は、統計学で棄却されるかどうかのボーダーラインの数字です。それだけの数字の補正を、具体的にどれくらいの補正をしたかという数字を出されずに盲信できるほど、ポーカープロはお人好しではないです。

（しかも、人間の中にトッププロとは程遠い、非常に弱いプレーヤーが１人居たと多くの人が言っていたりもします）

彼らの過去

更に、実質的にこのAIを開発したカーネギーメロン大学チームは２０１５年に

https://en.wikipedia.org/wiki/Claudico

人間とAIとの８万ハンドに及ぶ１対１の勝負をしました。

その結果、人間が７３２７ｂｂの勝ち越し、９ｂｂ/１００という結果を人間が出したのです。これは通常のHUでの標準偏差的にも２シグマに非常に近い数字でした。さらに、この時は、AIがプレーしたハンドと全く同じハンドを別の人間がプレーするという、かなり運の要素を減らした条件での対戦だったのです。

しかし、カーネギーメロン大学チームは対戦後

「２シグマ圏内だったので、運の範囲内だったから、勝負はイーブン。なので、AIは人間に追いついた」

と発言して、ポーカー界から大バッシングを受けたという過去があります。

２０１７年に同じ条件で再戦して、その時は人間が破れました。その時の記事は話題になったとは思いますし、自分も寄稿させていただきました。

https://www.itmedia.co.jp/pcuser/articles/1702/03/news028.html

そのような過去を持つ開発チームによる今回の勝利宣言。

さまざまな観点から見ても、自分はこの結果を冷静に見るとポーカーAIがトッププロを超えたと言い切るのは時期尚早だと思うわけです。

正直、２０１５年の１対１の対戦前は、既に人間が負け越すと思ってました。今回も、人間が負けるのかと思ってました。しかし、それに反して人間のトッププロは強さを見せつけました。

今回のこの実験結果は、どういう観点からみても、AIが人間のトップに勝ったとは言えない内容でしかないです。

恐らく２０２１年に同様の実験をまたやって、その時は人間は完敗するのだと思います。しかし、そのXデーは２０１９年ではなかったのです。

木原直哉オフィシャルブログ

プロポーカープレーヤー、木原直哉が、思ったことを書いていきます。道場やってます。https://lounge.dmm.com/detail/308/

ポーカーAIがポーカートッププロに勝ったと宣言するのは時期尚早である