Discovery Sagaサイレントキーワード俯瞰

本研究ではカーリングのような連続状態空間,連続アクション空間を対象にしたゲームについて,効果的な畳み込みニューラルネットワーク(CNN)の構成法を構築し,連続アクション空間でも可能な探索手法を提案,評価することを目的として,研究を開始した.
ネットワーク構造の構築,学習アルゴリズムの設計のために,より簡易化した問題を用いた様々な条件下での大量の実験が必要となり,2018年度に導入したGPU搭載並列計算機を用いての実験環境は整ってきたが,連続状態空間,連続アクション空間の例であるカーリングをターゲットとする上で,非決定性を持つ環境についての研究をすすめる必要があり,2021年度は不完全情報ゲームのうちでも扱いやすい同時手番ゲームについて，強解決することにより，学習の教師とすることを可能にすることを試みた．その際に，ある程度の大きさを持つゲームが必要であるため，状態数が 537,103個のR-Rivals というランダムな要素を含まない同時手番ゲームの2人零和ゲームのナッシュ均衡戦略を求めた．また，Content Generationの可能性を評価するため，タワーディフェンスゲームというジャンルのゲームのレベル（地図と敵の出現パターン）の敵対的生成ネットワーク（GAN）を用いた自動生成を試みた．タワーディフェンスゲーム自体は，連続状態空間,連続アクション空間を対象にしたゲームではないが，同様のアプローチは連続状態空間,連続アクション空間を対象にしたゲームにも適用できる可能性がある．
これらの研究成果はプログラムや解析結果のデータを公開することによって,今後の研究者がゲームを対象にした強化学習の評価をおこなう際の題材として利用可能にしている.