本文介绍了Xiwu,这是一个专门针对高能物理领域的大型语言模型。Xiwu的主要特点包括:
基础灵活性:Xiwu可以基于不同的基础模型(如LLaMA、Vicuna、ChatGLM等)进行训练,能够随着开源模型的发展而不断升级。
可学习性:Xiwu实现了基于向量数据库的即时学习系统,可以快速学习和更新领域知识,并且可以有针对性地删除知识。这种方式相比传统的模型再训练更加高效和灵活。
数据收集:作者提出了"种子分裂"技术,可以从单个种子话题快速生成大量相关的问答数据。同时还收集了来自聊天机器人、高引用文献和文献摘要等多种渠道的数据。
训练技术:作者采用了混合精度训练、FlashAttention、FSDP、CPU-Offload等先进的训练技术,提高了训练效率和模型性能。
评估结果:Xiwu-13B在高能物理领域的问答测试中,性能达到了ChatGPT-175B的65%,显著优于Vicuna-13B。即时学习系统也展现了快速学习新知识的能力。
总的来说,Xiwu为高能物理领域提供了一个定制化的大型语言模型,并为其他领域应用LLM提供了参考。相关代码已开源在GitHub上。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Zhengde Zhan... ב- arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08001.pdfשאלות מעמיקות