Core Concepts
提出了一个多智能体文本评估框架MATEval,通过集成自我反思和思维链策略,以及反馈机制,提高了对由大语言模型生成的开放式文本的评估可靠性和一致性,并显著提高了工业场景下的模型迭代效率。
Abstract
本文提出了一个名为MATEval的多智能体文本评估框架。该框架模拟人类协作评估文本的过程,集成了自我反思和思维链两种策略,并引入了反馈机制,以提高评估的深度和广度,促进智能体达成共识。
具体来说:
框架包括三种角色的智能体:评估智能体、反馈智能体和总结智能体。评估智能体是核心,负责多轮讨论和响应;反馈智能体评估每轮讨论的质量和效率,提出改进建议;总结智能体汇总整个过程,生成详细的评估报告。
自我反思策略要求智能体在每轮讨论后反思自己的观点,并结合其他智能体的意见进行调整。思维链策略则引导智能体分解评估问题,每轮讨论集中解决一个子问题。两种策略的结合增强了智能体的自我评估和批判性思维,提高了对开放式文本的评估效果。
反馈机制在每轮讨论后评估讨论质量,促进智能体达成共识。最终总结智能体生成包含错误类型、位置、解释和得分的综合评估报告,为工业场景下的模型迭代提供有价值的反馈。
实验结果表明,该框架在多个英文和中文故事文本数据集上均优于现有方法,与人工评估的相关性最高。在支付宝的业务场景中,该框架显著提高了文本评估的效率和准确性。
Stats
移动时经常很难交到敌人。
我从4岁就有一个26英寸的短绒毛怪物玩偶。
7岁时,一个紫色独角兽突然出现和我打招呼。