Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning
最近 arxiv 开始嘎嘎出现 ICRL 类的工作,作者发现以 algorithm distillation 为代表的 Old School ICRL,都是直接 prediction 训练过程中的所有 action。但是这样其实没有对 rl 算法中很多内在的、随训练更新的数值进行建模(比如 value,temperature 等),如果让模型除了预测 action 以外,在预测一些 rl 算法运行时的侧信道信息,会更有帮助吗?作者发现有效果
不过这个观点感觉有点怪:ICRL 的核心是想着减少对于 algorithm 的认知,如果通过耦合侧信道信息进去,好像会破坏 ICRL 的假设
v1.5.2