Google发布了一个用于记录、重播、操作、注释和共享资料,来支持串行决策,包括脱机增强学习、模仿学习或是演示学习的资料生态系统增强学习资料集(RLDS)。RLDS能够让用户在不需要了解底层格式,也不遗失任何资料的情况下,简单地共享资料集,供研究人员在广泛的任务中,共享和重用资料来测试算法。
大多数增强学习和串行决策算法,都需要从与环境大量交互中取得训练资料,来实现最佳性能,Google提到,这是很低效率的方法,尤其是当进行这些交互特别困难时,也就更难以收集资料,像是要以真实机器人收集资料,或是与人类专家交互时。
虽然这个问题可以通过重用外部知识来源解决,像是RL Unplugged Atari资料集,就包含游戏代理玩Atari游戏的资料,但这同样存在一些问题,像是这些资料集很少,而且串行决策生成资料的方式各异,研究人员表示,整个社群都只能使用这些数量极少,且不具代表性的资料集,使得这个方法也显得不切实际。
另外,部分资料集仅以适用特定算法的形式发布,这也阻挡了其他研究人员重复使用这些资料的可能性,像是资料没有包含与环境交互的顺序,而是一组随机交互的资料,如此便无法重建资料之间的关系,或是部分资料集可能以些微相异的格式发布,而这也使得细微错误难以被发现。
为了解决这个问题,研究人员发展出了RLDS,通过记录任何类型的代理和环境交互,来生成资料集,为了保有其可用性,原始资料以无损格式存储,通过记录产生的所有资料,保持资料项目之间的时间关系,并且不对资料的使用目的进行任何假设。
RLDS提供了两个工具,分别是EnvLogger和RLDS Creator。EnvLogger是一个以开放格式记录代理和环境交互的软件函数库,可记录代理和环境的交互,并且将这些信息保存在长期存储中,EnvLogger目前已经集成到RLDS生态系统中,但是Google将其设计成独立函数库,来实现模块化。
收集用于增强学习的人类资料,是一个耗时且劳力密集的过程,过去通常是通过群众外包的方式来解决,但这需要友善的工具,以方便大量参与者帮忙,在RLDS生态系统中,RLDS Creator是一个网页工具,提供浏览器的通用接面,使研究人员能够创建可控的环境,让参与者与环境交互,像是在线上玩Atari游戏,并且记录和存储所有交互资料,供之后分析和训练代理使用。
RLDS和TensorFlow资料集(TFDS)集成,一旦RLDS资料集成为TFDS的一部分,便会在TFDS目录中加入索引,任何研究人员便可以使用TFDS的函数访问,并且以Tensorflow或Numpy格式加载资料,目前在TFDS中兼容于RLDS的资料集,包括RLUnplugged DMLab、Atari和Real World RL资料集,还有使用RLDS工具所生成的三个Robosuite资料集等。