本文提出了TongGu,这是一个专门针对古典中文理解的大型语言模型。主要包括以下三个核心贡献:
构建了ACCN-INS数据集,这是第一个公开可用的古典中文指令数据集,旨在充分发挥大型语言模型在古典中文理解(CCU)任务上的潜力。
提出了冗余感知微调(RAT)方法,可以在两阶段微调过程中有效缓解灾难性遗忘问题,使模型既能高效学习新任务,又能保持之前学习的知识。
提出了古典中文检索增强生成(CCU-RAG)技术,可以显著减少模型在知识密集型任务中的幻觉倾向,进一步提升TongGu在CCU任务上的性能。
通过大量实验验证,TongGu在24种不同的CCU任务上都取得了优异的表现,大幅超越了现有的语言模型。这些创新性的贡献为古典中文理解领域带来了重大突破。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jiahuan Cao,... alle arxiv.org 10-01-2024
https://arxiv.org/pdf/2407.03937.pdfDomande più approfondite