もちもち備忘録

びぼーろく

2023-05-01から1ヶ月間の記事一覧

強化学習自分用メモ SAC編

何もわからない自分のための、参考サイトなどを元にした自分用メモ SAC (soft actor-critic) maximum entropy RL フレームワークに基づく、モデルフリーのoff-policy actor-critic deep RL アルゴ actor:エントロピーを最大化しつつ期待報酬を最大化するこ…