DeepMind 开发了一种可用于分布式训练的具备高扩展性的新型智能体架构 IMPALA(Importances Weighted Actor-Learner Architectures),该架构使用一种新型离策略修正算法 V-trace … 为了解决智能体在 DMLab-30 中进行训练的问题,DeepMind 开发了一种新型分布式智能体 IMPALA,它利用高效的 TensorFlow 分布式架构最大化数据吞吐量 … 我们展示了 IMPALA 在 DMLab-30(DeepMind Lab 环境中一组 30 个任务的集合)和 Atari-57(Arcade Learning Environment 中所有可用的 Atari 游戏)中进行多任务强化学习的有效性。