Centrala begrepp
提出了一种自控记忆(SCM)框架,使大型语言模型能够处理无限长度的输入,并有效地从所有历史信息中捕捉有用信息。
Sammanfattning
本文提出了自控记忆(SCM)框架,以增强大型语言模型(LLM)处理长输入的能力,并有效地保留关键历史信息。
SCM框架包括三个关键组件:
- LLM代理作为框架的核心
- 存储代理记忆的内存流
- 负责更新记忆并决定何时以及如何利用内存流中的记忆的记忆控制器
SCM框架可以处理无限长度的文本,而无需对LLM进行任何修改或微调。此外,作者注释了一个数据集,用于评估SCM在长期对话、图书总结和会议总结等任务中的有效性。
实验结果表明,将SCM框架与非对话优化的LLM(text-davinci-003)集成可以有效地超越ChatGPT,并在面对超长输入或长期对话时表现出色。对于总结任务,SCM方法在生成连贯和全面的总结方面明显优于基线模型。
Statistik
即使在4000个令牌的对话历史中,SCM框架也能准确地回答用户关于100轮前提到的爱好的问题,而ChatGPT则被大量无关的历史噪音所困扰。
SCM框架可以处理超过10,000个令牌的长期对话,并准确地回答用户关于之前提到的第一项运动的问题。
SCM框架采用分而治之的策略,通过利用相关记忆来建立段落之间的连贯性,从而在总结长文本时展现出优秀的性能。
Citat
"提出了一种自控记忆(SCM)框架,使大型语言模型能够处理无限长度的输入,并有效地从所有历史信息中捕捉有用信息。"
"SCM框架包括三个关键组件:LLM代理作为框架的核心、存储代理记忆的内存流,以及负责更新记忆并决定何时以及如何利用内存流中的记忆的记忆控制器。"
"实验结果表明,将SCM框架与非对话优化的LLM(text-davinci-003)集成可以有效地超越ChatGPT,并在面对超长输入或长期对话时表现出色。"