Decision transoformer (2021)は、自然言語モデルGPTにおける次トークン予測の枠組みでオフライン強化学習タスクを解けることを示し新たなパラダイムをもたらしました。最近ではDeepMindの超汎用エージェントGATOなどもDecision Transformerベースのアーキテクチャを採用しており、その重要性が増しています。 Decision Transformer とは オフライン強化学習の新たなパラダイム 言語を生成するように行動を生成する 自然言語風アプローチのメリット 条件付き生成:Reward conditioned Sequence modelingの系譜 Multi-Game Decision Transoformer(NeurIPS 2022) Uni[Mask](NeurIPS 2022): MaskedLMの導入 GATO(2022):超汎用エー
![オフライン強化学習② Decision Transformerの系譜 - どこから見てもメンダコ](https://cdn-ak-scissors.b.st-hatena.com/image/square/06a15c64ba0ceec233d86d71001ebb29a9dcbf5d/height=288;version=1;width=512/https%3A%2F%2Fcdn.blog.st-hatena.com%2Fimages%2Ftheme%2Fog-image-1500.png)