もちもち備忘録

びぼーろく

強化学習自分用メモ SAC編

何もわからない自分のための、参考サイトなどを元にした自分用メモ

SAC (soft actor-critic)

maximum entropy RL フレームワークに基づく、モデルフリーのoff-policy actor-critic deep RL アルゴ
actor：エントロピーを最大化しつつ期待報酬を最大化することが目的
つまり、可能な限りランダムに行動しながらタスクを成功させる
このフレームワークに基づくdeepRL手法はdeep Q-learning methodとして定式化されてる
off-policy updateと安定した確率的actor-critic定式化 (stable stochastic actor-critic formulation) を組み合わせる
様々な連続制御ベンチマークタスクでSOTA達成
他のoff-policyアルゴリズムと対照的に、安定しており、異なるseedにおいて非常に似た性能を達成

続きを読む

デュアルブートしているPCでgrub>が出てくる

選択画面がすぐ出てこない〜〜という時の応急手当て
（多分ブートローダが壊れた？）

続きを読む

ubuntuの他ユーザを作るタイプの初期化もどき

自分のアカウントなどだけ消してubuntuの入ったPCを送り返したいこの季節、とりあえずやったことの備忘録

続きを読む

NLP系気になるチュートリアル

何も、わからない、チュートリアル、大事

続きを読む

AI以外技術教材めも

もう何から何までわからない〜〜〜

という訳で全部やりたい

けど流石にやりきれないので忘れてしまう……

それを防止するためのメモ

続きを読む

面白そうなAPIめも

世の中には面白そうな使いたい技術が溢れている〜〜〜〜

続きを読む

論文執筆時に役に立つツールめも

英語論文しんどーーーい

今回は特に執筆に特化したツールをどんどん追記していきます。

続きを読む