本文提出了一种无监督的大型语言模型对齐方法RLCF,旨在提高大型语言模型在信息检索任务中的性能。
首先,通过无监督的双编码器方法识别出每个文档的相似文档组。然后,对于每个文档组,使用大型语言模型生成相应的响应,如文档摘要或查询。接下来,通过计算组内响应与文档的相似度,构建基于组内对比的反馈信号,即组内倒数排名得分(GRR)。最后,采用近端策略优化(PPO)算法,以GRR作为奖励函数来优化大型语言模型。
实验结果表明,与现有的对齐方法相比,RLCF显著提高了大型语言模型在文档摘要、文档扩展和数据增强等信息检索任务中的性能。特别是,RLCF优化后的大型语言模型在生成具有区分性的响应方面表现出色,这对于提高信息检索系统的性能至关重要。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Qian Dong,Yi... às arxiv.org 03-27-2024
https://arxiv.org/pdf/2309.17078.pdfPerguntas Mais Profundas