にっき「学習と整理」 - 496の落書き帳

今日は比較的がんばった。気がする。

昨晩は22.5時くらいに寝ると宣言して1時間以上寝れなかった。ああ眠い、寝ちゃお、と思って布団に入ると起きちゃうんだなあ。結局8時起床。ゴミ出しは久々に成功した。いい感じに家からペットボトル群と段ボール群が消え去ったが、収集車に回収されるまで雨ざらしになった彼らの顛末は知らない。梅雨って本当に面倒だねえ。

さて、午前は強化学習ゼミなるものにトライした。序章なので簡単なケース(マルバツ)を眺めただけだが、対人戦のゲームであるだけでもう色々と難しいということが分かった。例えば価値関数とはある盤面に価値があるのか、それともある一手に価値があるのかという論争が少しあった。

もっとディープな話としては、対戦相手を一定の分布に従う未知関数と仮定すると、ある相手に特化するのはできそうだが(「羽生さんに1億回対戦してもらって」などというパワーワードが零れた)、相手も自分の特徴を学習してくるよねという話になるとよく分からない。強化学習の枠組みを超えるというかゲーム理論的な問題が起きそうだ。

あと、これは対戦ゲームでなくても言えることだが、1手打った後に反省はするけど1ゲームが終わった後に全体を振り返り反省する事はしない、というのは学習が遅そうという話。これは結局のところプレイヤーの記憶力に対応すると思われる。マルバツくらいならできそうだが、将棋は(素人にとっては)1試合丸ごと覚えてはいられないし、丹念に感想戦をやるのも難しい。

最後に別件で面白かったのは、探索手から得た展開をそれ以前の盤面の価値に反映するかという問題。「この手はあんまり強くないかもしれないけど、やったことがないから打ってみよう」という行動を起こすのが探索手であるが、状況Aから探索手Xを打ってその結果起こったことをAの価値に反映するのはどうかということである。普通に考えるとAから打てる手は他に良いものがあったはずだからXの先が悪展開だったとしてもAの価値が下がるべきではなさそうだが、プレイヤーが必ず低確率で探索手を打つとすれば将来またAから(探索手)Xを打って負けるという可能性もあって、結局価値に反映されるべきだということになりうる。まあこれはアホくさい話で、いくら強化学習といえども、練習(探索手は打つが反映しない)と実戦(探索手は打たない)は分けたほうがいいんじゃないのというのが教訓と思われる。

話は変わって、夕方から親が襲来した。「タスクがやばい、期限が来ないとできない」とぼやいたら「それは遺伝！！」と一蹴され、期限に関して自分を騙す方法の話を少しした。で、とりあえずカレンダーに1日1タスクを予め割り当ててみるということをした。すると課題ラッシュがギリギリ終わる計算になって、少し良い気分になった。実現するとは思えないが。

これは暫定的に優先度を振って迷いをなくすという点では効果的な気がする。さて、明日のタスクは2値分類のレポートと研究室の進捗生成。まあ、やってみますか。おわり。