openai/gymのAtari環境でプランニング可能だって知ってた？俺は知らなかった。

こんにちは。たまにはキャッチーな記事タイトルをつけたくなるwalkingmaskです。

今回はopenai/gymのAtari環境でプランニングを可能にするためのWrapperを書いたので紹介したいと思います。リポジトリは以下。遊び心で木構造を作っていますが、メインとなるのはSavableEnvです。

`(clone|restore)_state`と`(clone|restore)_full_state`

gymのAtariEnvは(clone|restore)_stateと(clone|restore)_full_stateというプランニング用と言えるメソッドが用意されています。

あとはこれを使って、環境の状態を保存し、好きなだけいじくりまわした後にリストアすれば良いだけです。

何ができるかは言うまでもないと思いますが、例えば取りうる全状態の木を生成して、総報酬が最も高いリーフノードに続く行動を取れば学習せずに常に最大報酬を得られます。もちろん、貧弱な計算機力では無理ですが。

深層強化学習はモデルフリー手法であるDQNで始まりました。

しかし、最近流行りの生成モデルを組み合わせることでモデルベースな深層強化学習というのも現れてきています。

こういった手法に向けた検証や実験を行えるのではないかと思います。

2年以上gymを使っていて、こんな機能があることを初めて知ったのでブログに書いてしまいました。

日本語ドキュメントは見当たらなかったので、誰かの助けになれば幸いです。