来源：2023-05-19 09:50:00 热度：

GPT-4的32k输入框还是不够用？Unlimiformer把上下文长度拉到无限长

AI中国网 https://www.cnaiplus.com

Unlimiformer 可以被注入到任何现有的编码器 - 解码器 transformer 中，能够处理长度不限的输入。

Transformer 架构的强大之处在于 seq2seq 设计，然而预训练的 Transformer 模型的上下文仍然有限制。在这方面，Unlimiformer 提供了一种基于检索的方法，可以加强预训练的语言模型，使其能够接受输入长度不限的文本序列。Unlimiformer 能够被注入到现有的编码器 - 解码器 Transformer 中，其独特之处在于可以处理长度不限的输入序列。

传统的 Transformer 模型通常会涉及到上下文窗口的限制。对于长文本的序列处理，Length Transformer 是一种高效的方法。然而，对于涉及到长篇叙事任务的输入，Length Transformer 仍然无法满足需求。例如，长达 10 万个单词的输入文本，如书籍摘要、叙述问答信息等都属于长文本。事实上，维基百科的挑战集中，有的输入文本长度超过了 50 万个单词。为此，Unlimiformer 提供了一种强大的解决方案，使得 Transformer 模型可以处理长度不限的输入文本序列。

Unlimiformer 是基于检索的方法，能够加强预训练的语言模型，在测试时接受长度不限的输入。使用该方法，给定一长输入序列，便可以在所有输入 token 的隐藏状态上构建一个数据存储。这样，解码器的标准交叉注意力机制就可以查询数据存储，并关注输入序列的前 k 个 token。相比于传统的 Transformer 模型，Unlimiformer 可以有效处理长度不限的输入序列，并且无需重新训练模型或添加更多的权重等参数。本文还证明，Unlimiformer 可以应用于多个基础模型，如 BART 或 PRIMERA，对其进行进一步改进。

Unlimiformer 技术原理

相比于传统的注意力机制，固定的编码器上下文窗口大小会在注意力浪费的 token 上造成浪费。为了解决这个问题，Unlimiformer 提供了一种基于检索的方法，能够过滤非关键 token，提高注意力的利用率。在解码过程的每个步骤中，Unlimiformer 的每个注意力头都会从所有输入中挑选一个比固定上下文窗口更大的区域。这样可以在关键字中检索更多的信息，最终提高模型的性能。在计算与环境资源方面，Unlimiformer 有着比传统 Transformer 模型更佳的表现。

在长文本序列处理中，为了能够有效地处理长度不限的输入，本文提出了一种编码器块的编码方法，该方法

AI中国网 https://www.cnaiplus.com

本文网址：

欢迎关注微信公众号：人工智能报；合作及投稿请联系：editor@cnaiplus.com