強化学習自分用メモ SAC編
何もわからない自分のための、参考サイトなどを元にした自分用メモ
SAC (soft actor-critic)
- maximum entropy RL フレームワークに基づく、モデルフリーのoff-policy actor-critic deep RL アルゴ
- actor:エントロピーを最大化しつつ期待報酬を最大化することが目的
- つまり、可能な限りランダムに行動しながらタスクを成功させる
- このフレームワークに基づくdeepRL手法はdeep Q-learning methodとして定式化されてる
- off-policy updateと安定した確率的actor-critic定式化 (stable stochastic actor-critic formulation) を組み合わせる
- 様々な連続制御ベンチマークタスクでSOTA達成
- 他のoff-policyアルゴリズムと対照的に、安定しており、異なるseedにおいて非常に似た性能を達成
面白そうなAPIめも
世の中には面白そうな使いたい技術が溢れている〜〜〜〜
続きを読む