木原直哉オフィシャルブログ

プロポーカープレーヤー、木原直哉が、思ったことを書いていきます。道場やってます。https://lounge.dmm.com/detail/308/

ポーカーAIがポーカートッププロに勝ったと宣言するのは時期尚早である

https://www.afpbb.com/articles/-/3234875

 

今、フェイスブックカーネギーメロン大学が共同で開発したポーカーAIが人間に勝ったとの話題で持ちきりです。

しかし、それは今回の実験からは時期尚早だと思います。その根拠を具体的な数字でポーカープロの目線から説明していきたいと思います。

 

https://ai.facebook.com/blog/pluribus-first-ai-to-beat-pros-in-6-player-poker/

元々の論文の詳細については、この記事です。

 

まず、AI5人対人間1人の対戦です。

これに参加したのは3人。

クリスファーガソン、ダレンエリアス、ライナスの3人です。

この中で、ライナスは今6人NLHEで世界最強の一人と多くの人が認めている正真正銘のトッププロ、将棋の現タイトルホルダーと言っていいレベルでしょう。

ダレンエリアスも今のトッププロの一人です。彼が現タイトルホルダー急かというと賛否両論があるとは思いますが、世界トップ100に入るかと言われたらほとんどのプロは入るということに同意するでしょう。

クリスファーガソンはWSOPメインイベントの優勝者で、知名度も抜群に高いプロです。しかし、NLHEで世界トップ100に入るかと聞かれたら、入らないと言うプロが9割型だと思います。基本的にタイトで堅実なプレーヤーで崩れにくく入賞率が高いプレーヤーですが、ブラフ頻度が適正より低く、与しやすいという印象を自分は持っています。

それぞれ5000ハンドずつプレーしました。

しかし、5000ハンドと言うのは非常に少なく、正直プロが強めのアマチュア相手ならマイナスしてもおかしくない数字でもあります。

そこで、研究チームは、AIVATという手法を使ったとのことです。

AIVATは、強い手が配られたら、その分運が良かったと判断して勝ちから差し引く、というような手法です。

その手法を適用した後で、ダレンエリアスは4.0bb/100の負け、クリスファーガソンは2.5bb/100、ライナスは0.5bb/100の負けという評価となったとのことです。標準偏差は大体2bb/100程度。

まず、「AIVATという手法が完全に正しいと仮定して」、ダレンエリアス相手にはしっかり勝ち越し、クリスファーガソンには勝ち越している可能性が高い、ライナス相手にはほぼ五分という結果です。

ダレンエリアスに勝ち越しは非常に評価出来ます。

一方、クリスファーガソン相手に2bb/100というのは非常に物足りなく、その数字を出すポーカープロはわんさかいるでしょう。

また、世界最強の一人とされるライナス相手にはほぼ五分です。

この時点で、ポーカートッププロ相手に勝ったと宣言するのは時期尚早だと思うわけです。追いついたという評価ならともかく。

 

 

さらに、AIVATという手法がどの程度正しいものなのかも、非常に懐疑的です。

そもそも、その理論が論文になっているからと言って、それがどの程度広く受け入れられているのかという疑問がまずあります。論文として出ていても、実際全然認められていない論文もあるでしょう。

とはいえ、ここはその世界を知らないので、一旦正しい手法だと信じるとします。では、その評価法についてです。

例えば、AAが配られたらそれは当然幸運です。じゃあ、その幸運をいくらと評価すれば適正なのでしょう。もちろん対戦相手に何が配られるかに依るのでしょう。またコールされた場合、どんなフロップが来たらどれだけ得/損なのでしょう。

それを評価しないことには、AIVATという手法を用いた計算をすることは不可能だと思います。もし、神の視点と言えるくらい強いソフトが存在するのであれば、その数値を信用することも出来ます。バックギャモンXGというソフトが、ほとんど神の視点に近い強さだと広く信じられているので、その数値を人間は(それでもある程度)信用しています。

しかし、ポーカーに関しては、その評価をいかに計算するのでしょうか。

将棋のAI同士の対戦で、AというソフトとBというソフトが戦ったとします。

評価値という数字を見たことがある人は多いと思いますが、Aというソフトで評価させると、大体Aの側の評価を高く見積もります。ある意味当然のことではありますが。

ではAIVATという手法を用いて運を評価した時に、その評価された数値を計算するのはやはり Pluribus、今回のAIの評価、を用いざるを得ないでしょう。仮にAIVATという手法そのものが正しかったとしても、それは本当に公正に運を補正したものになるのでしょうか。自分は甚だ懐疑的です。

 

 

そこまで書いた上で、次に1万ハンドをAIが1,人間が5という状態で行った実験結果を見てみます。この人間5というのは、前述の3人の他に複数のプロが混じってます。

その結果ではAIがAIVATでの評価後で+5bb/100という数字、500bbの勝ちという結果になってます。

 

しかし!!!

http://kevinwang.us/lets-analyze-pluribuss-hands/

実はこの人が公開された棋譜を解析したところ、AIは1万ハンドで700bbの負け越しだったのです!

まあ、実際に引かれて運が悪かったのは間違いなかったようで、オールインした時にそのときの勝率でポットを分配した、AIEVでは、150bbの負け越し、550bbはオールイン後に引かれた数字です。

ところで、NLHEでは100ハンドでの標準偏差は大体60bbくらいです。

10000ハンドだと、その10倍の600bbくらいです。(そこの話が飛んだと思う人はぜひ統計学をちょっとだけかじってください)

この数字はAIEVでの運の補正前の標準偏差です。

「結果で700bb負けてたけど、AIVATでの運の補正を入れたら500bb勝ちだから、運の要素がなかったら勝ち!」

と言っているわけですが、1200bbほどツイてなかったという主張は、実は2シグマに相当するくらいツイてなかったと主張しているわけです。2シグマという数字は、統計学で棄却されるかどうかのボーダーラインの数字です。それだけの数字の補正を、具体的にどれくらいの補正をしたかという数字を出されずに盲信できるほど、ポーカープロはお人好しではないです。

(しかも、人間の中にトッププロとは程遠い、非常に弱いプレーヤーが1人居たと多くの人が言っていたりもします)

 

 

彼らの過去

 

更に、実質的にこのAIを開発したカーネギーメロン大学チームは2015年に

https://en.wikipedia.org/wiki/Claudico

人間とAIとの8万ハンドに及ぶ1対1の勝負をしました。

その結果、人間が7327bbの勝ち越し、9bb/100という結果を人間が出したのです。これは通常のHUでの標準偏差的にも2シグマに非常に近い数字でした。さらに、この時は、AIがプレーしたハンドと全く同じハンドを別の人間がプレーするという、かなり運の要素を減らした条件での対戦だったのです。

しかし、カーネギーメロン大学チームは対戦後

「2シグマ圏内だったので、運の範囲内だったから、勝負はイーブン。なので、AIは人間に追いついた」

と発言して、ポーカー界から大バッシングを受けたという過去があります。

 

2017年に同じ条件で再戦して、その時は人間が破れました。その時の記事は話題になったとは思いますし、自分も寄稿させていただきました。

https://www.itmedia.co.jp/pcuser/articles/1702/03/news028.html

 

そのような過去を持つ開発チームによる今回の勝利宣言。

 

さまざまな観点から見ても、自分はこの結果を冷静に見るとポーカーAIがトッププロを超えたと言い切るのは時期尚早だと思うわけです。

 

正直、2015年の1対1の対戦前は、既に人間が負け越すと思ってました。今回も、人間が負けるのかと思ってました。しかし、それに反して人間のトッププロは強さを見せつけました。

今回のこの実験結果は、どういう観点からみても、AIが人間のトップに勝ったとは言えない内容でしかないです。

恐らく2021年に同様の実験をまたやって、その時は人間は完敗するのだと思います。しかし、そのXデーは2019年ではなかったのです。