もちもち備忘録

びぼーろく

強化学習自分用メモ SAC編

何もわからない自分のための、参考サイトなどを元にした自分用メモ

SAC (soft actor-critic)

  • maximum entropy RL フレームワークに基づく、モデルフリーのoff-policy actor-critic deep RL アルゴ
  • actor:エントロピーを最大化しつつ期待報酬を最大化することが目的
  • つまり、可能な限りランダムに行動しながらタスクを成功させる
  • このフレームワークに基づくdeepRL手法はdeep Q-learning methodとして定式化されてる
  • off-policy updateと安定した確率的actor-critic定式化 (stable stochastic actor-critic formulation) を組み合わせる
  • 様々な連続制御ベンチマークタスクでSOTA達成
  • 他のoff-policyアルゴリズムと対照的に、安定しており、異なるseedにおいて非常に似た性能を達成
続きを読む