本文提出了自控记忆(SCM)框架,以增强大型语言模型(LLM)处理长输入的能力,并有效地保留关键历史信息。
SCM框架包括三个关键组件:
SCM框架可以处理无限长度的文本,而无需对LLM进行任何修改或微调。此外,作者注释了一个数据集,用于评估SCM在长期对话、图书总结和会议总结等任务中的有效性。
实验结果表明,将SCM框架与非对话优化的LLM(text-davinci-003)集成可以有效地超越ChatGPT,并在面对超长输入或长期对话时表现出色。对于总结任务,SCM方法在生成连贯和全面的总结方面明显优于基线模型。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Bing Wang, X... a las arxiv.org 09-20-2024
https://arxiv.org/pdf/2304.13343.pdfConsultas más profundas