尽管开发了许多长形式问答(LFQA)方法,但由于其高度复杂性和成本,有效和高效地评估LFQA仍然是一个挑战。为了解决这一差距,我们提出了一个名为"中国考试长形式问答评估基准(CALF)"的参考基准,旨在严格评估自动评估指标对LFQA的性能。
传统的调查问卷方法在深度和规模之间存在权衡。本研究探索了用大型语言模型(LLM)取代人类访谈者进行可扩展的深度访谈的潜力,以评估AI访谈的表现并在受控环境中识别改进机会。
本研究提出了一个多代理系统,将旋律到歌词的任务分解为子任务,每个代理控制押韵、音节数、歌词-旋律对齐和一致性。通过扩散式合成歌声进行倾听测试,评估不同代理组生成的歌词质量。
本文提出了PclGPT,这是一个专门用于检测针对弱势群体的歧视性和贬低性语言(PCL)的大型语言模型。PclGPT通过预训练和监督微调的方法,显著提高了对隐性毒性语言的识别能力,优于现有的预训练语言模型和大型语言模型。
本文提出了TongGu,这是一个专门针对古典中文理解的先进大型语言模型。通过构建ACCN-INS数据集、提出冗余感知微调(RAT)方法和古典中文检索增强生成(CCU-RAG)技术,TongGu在各种古典中文理解任务上取得了卓越的性能,大幅超越了现有的语言模型。
利用来自不同翻译器的翻译变体,通过提取共识双词来增强双语软件项目中基于信息检索的可追溯性恢复。
本文提出了三种新的移动设备应用体验:1) 基于屏幕理解的视觉问答和自动表单填写;2) 支持语言代码切换的智能回复。这些新体验利用了最新的大型语言模型技术,弥补了现有解决方案的局限性。
提出了深CLAS模型,通过偏置损失、改进偏置注意力查询、使用细粒度偏置信息编码以及直接利用偏置注意力得分等方式,更有效地利用上下文信息,显著提高了稀有词的识别性能。
本文提出了一种名为"双向思维链"(DualCoTs)的方法,利用大语言模型有效地扩展成语情感词典。该方法结合了语言学和心理语言学的见解,通过两条不同的思维链(字面链和词源链)来全面分析成语的情感含义。
本文提出了一种两阶段的训练方法,通过在大型语言模型上进行拼音到字符的预训练,使其能够从发音特征生成对应的文本,从而提升其在自动语音识别任务中的性能。此外,利用额外的纯文本数据进行预训练,可以进一步提升模型在低资源自动语音识别任务中的表现。