来源：2023-05-19 10:49:00 热度：

顺序决策与基础模型如何交叉互惠？谷歌、伯克利等探讨更多可能

基于自监督学习的预训练基础模型已经在广泛数据集上展现出优秀的能力，可以将知识迁移到不同的下游任务，如长期推理、控制、搜索和规划，或者应用于对话、自动驾驶、医疗保健和机器人等领域。未来，这些模型还将向外部实体和智能体提供接口，例如在对话应用中，与人进行多轮语言交流，或在机器人领域，执行感知控制动作。

这些场景为基础模型提出了新的挑战，包括：1）如何从外部实体（例如人类对对话质量的评价）的反馈中学习；2）如何适应大规模语言或视觉数据集中不常见的模态（例如机器人动作）；3）如何进行长期的推理和规划。

这些问题是顺序决策的核心，包括强化学习、模仿学习、规划、搜索和最优控制等领域。与基础模型使用数十亿文本和图像 token 的广泛数据集进行预训练的方法相反，顺序决策制定的方法通常专注于任务特定或具有有限先验知识的白板设置。

尽管没有先验知识似乎让顺序决策变得困难，但研究已经在多个任务上超越了人类表现，如玩棋盘游戏、Atari 电子游戏，以及机器人导航和操作等领域。

然而，由于这些方法从零开始解决任务，缺乏广泛知识，因此在泛化和样本效率方面通常表现不佳。例如，为了解决单个 Atari 游戏，需要 7 块 GPU 运行一天。与基础模型所使用的广泛数据集类似，互联网上有无数关于如何玩 Atari 游戏的文章和视频，大量关于对象和场景属性的知识对于机器人非常有用，关于人类愿望和情感的知识也可以改善对话模型。

虽然基础模型和顺序决策的研究看起来不相交，但两者之间的界限变得越来越模糊。随着大型语言模型的出现，基础模型应用的目标从简单的零样本或少样本任务扩展到需要长期推理或多次交互的问题，而顺序决策领域也开始准备更大的数据集，以学习多模型、多任务和通用交互式智能体。

一些最近的工作研究了如何使用基础模型在视觉环境中 bootstrap 交互式智能体的训练，也有工作调整大型语言模型与外部工具交互，例如搜索引擎、计算器、翻译工具、MuJoCo 模拟器和程序解释器。我方还分析了如何将基础模型应用于涉及外部实体的任务以及利用基础模型的世界知识更快地解决顺序决策和进行更好的泛化。