CFR(反事実的後悔最小化)について知りたい。
テキサスホールデムの最適解は求まるか | Scene Research Station
という記事を読んで、CounterFactual Regret minimization略してCFR、訳して反事実的後悔最小化、に興味をひかれた。
というのも、投資の世界にいるとプロスペクト理論の話題を頻繁に耳にする。
A、確実に10万円もらえる。
B、コインを投げて表が出れば20万円、裏が出れば0円。
的な話だ。
プロスペクト理論については皆さん耳タコだと思われるので省略するが、同じことを後悔理論というものでも説明できるらしい、
曰くこうだ、
人は自分の決定の質を、別の選択をしていたならば起きたかもしれないことと比較する。まだ起きていないことに対しても「もし自分が異なる決定を下したなら、どうなっていただろうか」という「事実に反する推論」(反事実的条件)を行う。
A、Bの例だと、コインの裏が出た時に感じる後悔を想像した上で、それを避けるために確実な10万円を選択することになる。
結果としてプロスペクト理論と同じリスク回避をすることになるが、後悔理論は標準の効用関数に後悔というあたらしい変数を付加することで、この選択を説明するのだ。
ところで僕はプロスペクト理論にかねてからの不満があった、で?どうすれば良いの?!ということだ。
例えば、
『ねぇねぇ!良いこと教えてあげる!』
「何?」
『人はボーっとしながら道を歩くと車に轢かれやすい傾向があるんだって』
「で?どうすれば良いの?」
『ボーっとしないで☆!』
って言われた感じ、え?なに?他に何かないの?で?それで?
そう思うでしょ、思わない、僕だけか、いやしかし。
ともかく僕はプロスペクト理論に対して不満があった訳だ、そこで後悔理論なんだけど、このままだと後悔理論も同じことにしかならない、わかったよ、で?という話だ。
ここで反事実的後悔最小化が出て来る、つまりこいつは後悔を最小化するアルゴリズムらしい、ということはこいつには後悔を最小化するためにはどういった選択をするのが最適かを指示することができる訳だ。僕が、で?と言った時に、だからこの場合に最適な選択は・・・と指示できる訳だ。
これは凄い、知りたい!実際ポーカーでは勝てるらしいし。
とはいえこれをトレードに使える様にしたい、なんてことは僕の知識では到底無理な話なんだけど、でも何か触りだけでも知りたい。
と思ったんだけども、日本語の文献が全然ない、英語の論文は見つけたんだけど意味がわからない。
論文の話は長くなるから、次回へ続く!
(プロスペクト理論と後悔理論の違いもそれなりに調べたんだけど誰か聞きたい?)