一、谷歌全新架构Titans介绍
谷歌于2025年1月15日发布了新架构Titans,它被视为Transformer架构的继任者 。
从结构和原理层面来看,Titans的提出与对循环模型和注意力机制的长期探究密切相关。循环模型旨在将数据压缩到固定大小的记忆(即隐状态),而注意力机制能处理整个上下文窗口捕捉token间直接依赖,但准确的依赖建模常带来二次成本,导致模型只能处理固定长度上下文。为克服这一局限,谷歌提出新的长期神经记忆模块(neural memory module) 。
在此基础上,Titans主要包含三个分支:
-
核心分支(Core):使用注意力机制进行数据处理,其主要关注有限的上下文窗口,扮演着类似短期记忆的角色,对应的是受限于上下文但依赖关系建模精确的注意力机制,对小块数据进行及时处理,以达到高效运算的效果。
-
长期记忆分支(Long - term Memory):这一分支使用新的神经长期记忆模块来存储和回忆历史信息,就像是一个容量较大、能够长期存储数据的仓库,通过学习记忆历史上下文,为当前的处理提供久远的信息支持,能克服注意力机制在处理长序列时的局限。例如在处理长文本时,可避免信息随距离的增加而丢失。
-
持久记忆分支(PersistentMemory):使用可学习但不依赖于数据的参数来编码任务相关知识,提供了一种对任务“固有”知识的存储和获取方式,可以看作是一种先验知识的储备。
同时,谷歌还通过三种变体有效地将记忆融合到系统架构中:
-
记忆作为上下文(Memory as a Context,MAC):把长期记忆视为当前信息的上下文,使用注意力机制将长期记忆和持久记忆(编码任务知识的不变参数)作为当前输入的上下文一起输入,这种方式能很好地融合不同的记忆单元,互相补充信息,对不同数据进行综合考量。
-
记忆作为门(Memory as a Gate,MAG):通过门控机制将长期记忆与核心分支的信息融合,在记忆模块和滑动窗口注意力(SWA,Sliding Window Attention)两个分支上进行门控融合,这里的门控机制就像一个调节器一样,通过这个“门”控制各部分的信息流量,决定长期记忆与核心分支信息在融合时的比例。
-
记忆作为层(Memory as a Layer,MAL):此变体是将长期记忆模块作为深度神经网络的一层,使长期记忆模块成为深度神经网络结构的一部分,从而将历史信息的压缩和当前的处理流程紧密地结合在一起。例如在模型进行层与层之间的数据传递时,可以直接将记忆相关的操作加入流程之中。
论文作者还设计了长期神经记忆模块,这个模块有独特的工作方式。
-
记忆的获取:将训练过程视为在线学习问题,目标是把过去的信息压缩到其参数中。受人类记忆规律启发,它将违反预期(令人惊讶)的事件视为更值得记忆的,并通过计算神经网络相对于输入的梯度来衡量输入的惊讶程度以更新记忆。比如对于一些在文本语料中不常见的数据模式,如果出现就可能被认为是令人惊讶的并加以重点记忆。
-
记忆的结构:研究发现深度记忆模块(使用多层感知机)比线性模型更有效,这有助于更有效的存储结构以及更好的记忆提取和利用方式。
-
记忆的检索:能够通过简单的正向传递(不更新权重)来检索与查询相对应的记忆,在查询历史相关信息时,不需要复杂的反向传播等大量计算就能快速获取记忆信息。
研究团队还设计了遗忘机制,在处理非常大的序列(如百万tokens)时非常关键,通过自适应遗忘机制允许记忆忘记不再需要的信息,有助于更好地管理有限的记忆容量。以避免记忆库的无限膨胀以及提升效率,例如在处理海量文本中某些长尾信息,对后续处理作用不大就可选择遗忘等。
二、谷歌Titans架构的特点
(一)有效整合记忆与注意力机制
-
兼具短期与长期记忆功能
-
Titans架构中的注意力机制起着短期记忆的作用,能够精准地对小块的上下文窗口内的数据依赖关系进行建模。同时,通过神经长期记忆模块实现长期记忆的功能,这种长期记忆可以存储历史信息并在需要的时候被调用。例如在语言建模任务中,注意力机制可以捕捉当前句子中的词汇依赖,而长期记忆可以回想之前句子或者文本块中的有用信息,协同起来提高模型对整个文本的理解能力和处理效率。
-
从结构上,核心分支(Core)中的注意力机制负责快速处理即时信息,而长期记忆分支(Long - term Memory)则专注于对历史信息的长期存储与检索,两者相互配合,使得模型在处理各种任务时既能有效利用当前信息,又能兼顾历史信息。
-
-
创新的记忆融合方式
-
Titans提出了三种记忆融合变体MAC、MAG和MAL,这些变体提供了不同的策略将记忆融入到整体架构中。以MAG为例,门控机制的使用可以动态地调整长期记忆与核心分支信息的融合比例,使得模型能够根据不同的数据模式和任务需求自适应地调整记忆的利用方式。
-
在MAC中,把长期记忆作为当前信息的上下文输入,为当前输入补充更多的背景知识,这种方式类似于人类在理解句子时会借助上下文语境信息。MAL将长期记忆模块作为神经网络的一层,这种深度融合的方式可以让记忆更好地融入到数据处理流程中。
-
(二)具备良好的学习与泛化能力
-
在线元模型学习记忆策略
-
对于长期神经记忆模块,谷歌采用了在线元模型的策略来学习如何在测试时记忆或忘记数据。它解决了传统神经网络记忆带来的问题,比如在传统神经网络训练中,简单地让神经网络记忆训练数据会导致模型的泛化能力受限,以及可能引发隐私问题。而在线元模型在学习一个能够记忆的函数时不会过拟合训练数据,从而在测试时实现更好的泛化性能。
-
例如,在语言建模中,当遇到一些在训练数据中有但分布较为稀疏的词汇或语法结构时,模型能够根据学习到的记忆策略合理对待这些信息,而不是简单地依赖于训练中的记忆,从而提高对新语言模式的适应性。
-
-
利用意外指标优化记忆更新
-
训练长期记忆时,使用的意外指标(Surprise Metric)是一个重要的特征。这里的意外指标基于输入数据与过去数据的偏差,即梯度越大,表示输入数据越意外。这种以意外性为导向的记忆更新方式有助于模型聚焦于那些与以往数据模式差异较大的数据点进行记忆。
-
例如,当处理一个包含新知识或者新主题的文本段落时,意外指标会突出这个段落中的特殊信息,从而引导记忆模块重点记忆这些创新或者特殊内容,进而优化模型在面对新情况时的表现。而且,谷歌将意外指标分解为过去意外(衡量最近过去的意外程度)和瞬时意外(衡量传入数据的意外),改进了单一意外指标可能导致错过重要信息的问题,使得记忆更新更加全面和合理。
-
(三)具有高效的训练与推理性能
-
并行化训练优势
-
谷歌构建的神经长期记忆模块具有快速并行化训练的优势,这使得Titans架构在训练过程中可以更充分地利用计算资源。例如在大规模的数据集上进行训练时,如果模型能够实现并行训练,那么训练时间将会大大缩短。
-
与一些传统模型或者架构需要较长的训练周期不同,Titans可以较快地收敛到较好的参数设定,有助于提高模型开发的效率。这种快速并行化训练的特性也使得在实际应用场景中,如对大规模的文本语料库或者基因组学数据等进行处理时,能够更及时地得到可用的模型。
-
-
保持快速推理
-
在推理阶段,除了需要快速提取记忆中的信息外,还需要高效地利用这些信息完成任务处理。Titans架构在保持快速推理方面表现出色,由于其结构上对注意力机制、长期记忆和持久记忆的有效组织,在推理过程中能够快速地调动相应的记忆信息,并与当前输入信息进行融合处理。
-
在诸如时序预测等对实时性要求较高的任务中,快速推理能力可以使模型更快地给出预测结果,提高模型在实际应用中的响应速度。
-
三、谷歌Titans架构的应用场景
(一)语言建模领域
-
处理长文本段落
-
在语言建模方面,Titans架构的强项之一是处理长文本。由于其具有长期神经记忆模块和有效的记忆融合方式,在处理长段落或者长篇文档时,可以有效地利用之前的文本信息。对于长篇小说等长文本来说,之前章节中的人物关系、情节线索等信息可以被长期记忆存储起来,并在后续章节的理解和生成中发挥作用。
-
举例来说,当对一部长篇小说进行续写时,模型可以回顾之前的故事走向、人物性格特点等信息,使得续写的内容在逻辑上和风格上与前文保持一致,避免出现逻辑漏洞或情节跳跃等问题。
-
-
对语义信息的长期记忆与理解
-
Titans能够更好地理解多义词在不同语境下的语义。长期神经记忆模块可以存储与多义词相关的各种语境信息,当再次遇到这个词时,可以迅速从记忆中调出相关语境来理解其确切含义。
-
例如,“bank”这个词既可以表示金融机构的银行,也可以表示河岸。在一段关于地理环境的描述和一段关于金融交易的描述中,模型能够利用长期记忆区分“bank”的不同含义,这有助于提高语言建模的准确性,无论是在文本生成还是在语义理解方面。
-
(二)常识推理任务
-
整合不同知识源信息
-
在常识推理中,常常需要整合多个不同来源的知识。Titans架构的持久记忆分支(PersistentMemory)可以对任务相关知识进行编码,长期记忆分支(Long - term Memory)可以存储之前推理过程中的经验信息。这使得模型在进行常识推理时可以从多个角度获取信息,提供更全面的推理依据。
-
比如在回答关于自然科学和社会科学交叉方面的问题,例如人口增长对生态环境影响的问题,模型既可以利用持久记忆中编码的人口学、生态学的基本常识知识,又可以调用长期记忆中之前分析类似问题的逻辑推理线索,从而给出更加合理准确的答案。
-
-
适应动态的推理环境
-
现实世界中的常识推理场景往往是动态变化的,Titans架构中的在线元模型学习记忆方式和自适应遗忘机制有助于模型适应这种动态性。模型可以根据新的信息不断更新自己的记忆内容,遗忘不再适用的旧知识,从而保持推理的准确性。
-
例如,随着社会观念的更新,对于某些社会现象的评价标准可能发生变化,模型能够及时调整记忆中的相关信息,如对于新型职业类型的态度转变等方面的推理,使其在动态的推理环境中始终保持合理的判断能力。
-
(三)基因组学研究
-
处理长序列基因数据
-
基因组学的数据往往是长序列数据。Titans的特性使得它可以有效地处理这种长序列信息。如同处理长文本一样,长期神经记忆模块能够对较长的基因序列进行分段记忆,在分析基因序列之间的关系或者基因的功能表达时,可以从基因序列的不同区域提取信息进行综合分析。
-
例如在研究基因的遗传性时,对于较长的基因片段,模型可以通过长期记忆存储不同家族成员之间基因片段的相似性、变异情况等信息,进而分析某些基因与疾病遗传性的关联。
-
-
关联不同组学知识搭建基因网络
-
在基因组学中,往往需要关联不同组学知识(如基因组学、转录组学、蛋白质组学等)来构建完整的基因网络。Titans架构的记忆特性与记忆融合方式有助于在不同层次的组学知识之间建立联系。
-
比如在探索基因表达调控机制时,需要将基因结构信息(基因组学)与基因表达后的产物情况(蛋白质组学)联系起来。Titans可以利用不同的记忆分支分别存储不同组学层面的知识,并通过对记忆的整合构建起多层面之间的关联关系,模拟整个基因表达和调控的过程。
-
(四)时序预测任务
-
记忆长时间序列模式
-
时序数据随着时间的推移往往呈现出复杂的序列模式。Titans架构能够记忆长时间序列中的模式特征,其长期神经记忆模块可以对过去的时序数据进行有效记忆。对于如股票价格的长期趋势分析或者气象数据的季节性规律研究等,模型可以存储多年的数据模式。
-
举例来说,在股票价格预测中,长期记忆可以存储股票在不同经济周期下的走向特点、在不同政策环境下的市场反应等历史性信息,当预测未来走势时,这些以往的记忆可以为模型提供宝贵的参考依据,使预测结果更具有前瞻性和可靠性。
-
-
应对时序数据中的动态变化
-
时序数据不仅有长期的趋势特性,也存在短期内的波动和不规则变化。Titans的注意力机制在捕捉短期的动态变化方面发挥重要作用,同时长期记忆也能够随着新的时序数据不断更新自己的记忆内容,以适应这种动态变化。
-
例如在气象预测中,虽然存在季节性的规律性变化,但也会受到突发气象灾害等异常事件的影响。模型能够利用注意力机制及时捕捉气象数据中的短期内突发变化,并在长期记忆中更新这种异常信息,从而提高气象预测在短时间内对特殊天气事件的应对能力。
-
四、谷歌Titans架构与其他架构的对比
(一)与Transformer架构对比
-
上下文处理能力
-
Titans:具有独特的长期神经记忆模块,可以有效地扩展到超过200万tokens的上下文窗口。例如在处理长篇小说或者大型文档时,能够捕捉远距离的语义信息,保持对整个长文本的理解。
-
Transformer:受限于注意力机制的二次成本,在处理长上下文时存在困难,上下文长度往往较为有限,在长文本场景下可能会出现信息丢失或者语义理解不连贯的问题。
-
-
记忆与泛化性能
-
Titans:采用在线元模型学习记忆,在训练过程中不会过拟合训练数据,具有较好的泛化能力。同时通过多种方式存储和利用记忆,能够根据不同情况调整记忆策略。
-
Transformer:虽然具有良好的并行计算能力,但记忆主要依赖于注意力机制本身对输入的处理,在泛化性方面没有Titans针对记忆与泛化专门设计的机制。
-
-
训练与推理效率
-
Titans:神经长期记忆模块具有快速并行化训练优势并且能保持快速推理。在处理大规模数据时,这种优势可以使训练过程更快收敛并在推理阶段及时响应。
-
Transformer:具有并行训练的能力,但其处理长序列数据时由于计算复杂度的问题,在训练和推理效率上会随着序列长度的增加而受到影响。
-
(二)与现代线性RNN对比
-
记忆功能
-
Titans:具备长期神经记忆模块,可以在测试时学习记忆,既能够存储遥远的历史信息,又能够根据实际情况进行遗忘和更新,提供了更灵活的记忆管理方式。
-
现代线性RNN:将数据压缩到固定大小的记忆(隐状态)中,这种固定大小的记忆在存储容量和信息更新方面面临局限,可能导致长序列中的早期信息丢失。
-
-
性能与效率
-
Titans:在多种任务(如语言建模、常识推理、基因组学和时序预测任务)上的实验结果表明比现代线性RNN更有效,由于采用新的机制在训练和推理过程中能够更有效地利用资源处理信息。
-
现代线性RNN:在处理较长序列或者复杂任务时,由于自身结构限制,效率和性能会有所下降,例如在处理长文本的语义理解或者复杂的基因组学数据关联方面可能表现不佳。
-
(三)与GPT - 4等超大型模型对比
-
性能表现
-
Titans:据论文一作称,新架构Titans比GPT - 4等超大型模型性能更强,在多种任务场景下(如前所述语言建模、时序预测等任务)能够更高效准确地处理任务。
-
GPT - 4:虽然具有很高的性能,但在Processing Long - Context等方面相对于Titans仍存在改进空间,例如,在处理长文本推理或者长时间序列数据分析时可能不如Titans架构高效。
-
-
架构差异
-
Titans:架构上具有独特的长期神经记忆模块、三种记忆融合变体等,这些特性是专门针对记忆和处理能力进行设计的。
-
GPT - 4:其架构是基于Transformer架构构建的超大型模型,主要是利用大量的数据和大规模的模型结构来提升性能,没有针对记忆做像Titans这样专门的设计。
-
五、谷歌发布Titans架构的影响
(一)对人工智能研究领域的促进
-
新的研究方向探索
-
Titans架构的提出为人工智能领域开辟了新的研究方向。其独特的长期神经记忆模块以及创新的记忆融合方式为其他研究人员提供了新的思路,在如何构建更有效的记忆存储与利用的神经架构方面起到了示范效应。例如,未来研究可能围绕如何进一步优化这种在线元模型学习记忆的方式,如何根据不同应用场景更好地设计和调整记忆结构等方面展开研究。
-
记忆一直是神经网络研究中的重要问题,Titans架构以一种新颖的方式解决了部分记忆相关的问题,如记忆的获取、更新、遗忘等机制,这可能会激发更多关于神经网络记忆理论的研究成果,推动整个领域对神经架构与记忆机制关系的深入理解。
-
-
对长序列处理技术的推动
-
在解决长序列处理问题方面,Titans架构有着重要的意义。在自然语言处理领域的长文本生成、基因组学中的长序列基因数据分析等众多需要处理长序列的场景下,其成果可以促进相关领域对长序列处理技术进行进一步优化。
-
研究人员可以基于Titans架构探索如何更好地处理音频、视频等其他类型的长序列数据,提高模型在这些领域对长序列数据的表达能力,从而提升各种长序列相关任务的准确性和效率。
-
(二)对应用领域的潜在影响
-
提升自然语言处理任务效率
-
在自然语言处理领域,随着数据量的不断增加以及对处理长文本需求的增长,Titans架构能够为各类自然语言处理任务(如机器翻译、问答系统等)带来效率提升。例如在机器翻译中,如果能有效利用历史文本中的翻译知识进行长文本的翻译,就能够提高翻译的质量和速度。
-
对于需要深入语义理解的任务,比如智能文档分析系统,Titans架构能够更好地处理长文档的整体性理解,提取更全面准确的信息,为用户提供更优质的服务。
-
-
在生物信息等领域的变革潜力
-
在生物信息学领域,尤其是基因组学研究中,处理海量的基因序列数据一直是一个挑战。Titans架构通过其长序列处理能力和记忆特性,可以加速基因数据分析、基因疾病关联研究等进程。例如,更精准地找到致病基因与基因组特定区域之间的关联,提高基因疾病诊断的准确性。
-
在其他复杂数据处理领域如气象、金融等,其处理长序列数据和高效推理的特性也有望带来新的应用模式,提升预测和决策的准确性。例如在金融领域,对于长期的市场趋势分析和突发金融事件预测等方面可能会有新的突破。
-
-
推动人工智能应用的集成创新
-
Titans架构的出现可能会促使各领域将其与现有的人工智能技术进行集成创新。比如在智能安防领域,可以与视频分析技术集成,利用Titans处理长视频序列的能力更好地分析事件发生过程。
-
在机器人领域,可以与机器人的任务规划和执行模块结合,利用架构的记忆能力和推理能力优化机器人在复杂环境中的任务执行。这种集成创新有望催生更多新的人工智能应用场景和解决方案。
-