深層強化学習は、子どもが何かの技能を学ぶのと非常に似ている。習うより慣れろだ。しかし、ロボットのような自律エージェントの場合、ある試みの後に次の試みを実施する前に、エージェントを取り巻く環境を元の状態に戻さなければならない。それは例えば、人間が走り回って物体を置き直すといった時間のかかる面倒な作業になることもある。 グーグル・ブレイン、ケンブリッジ大学、マックス・プランク知能システム研究所、カリフォルニア大学バークレー校の研究者は、次の試みを実施するために環境を元に戻すことや、元の状態に戻せないような行動はとらないことを、エージェントに教える方法について、アーカイブ(arXiv)に公開した新しい論文で詳細に記述している。 研究者たちは、一緒に機能する「進む」と「元に戻す」方策をエージェントに与えた。「進む」方策は技能を学習するのと一緒にタスクとして課されるのに対し、「元に戻す」方策はエージ