핵심 개념
OpenThaiGPT 1.5 是一款基于 Qwen v2.5 架构的先进泰语聊天模型,在超过 2,000,000 个泰语指令对上进行了微调,并在各种泰语任务上展现出最先进的性能,超越了其他开源泰语语言模型。
초록
OpenThaiGPT 1.5 研究论文摘要
论文信息
- 标题:OpenThaiGPT 1.5:以泰语为中心的开源大型语言模型
- 作者:Sumeth Yuenyong, Kobkrit Viriyayudhakorn, Apivadee Piyatumrong, Jillaphat Jaroenkantasima
- 机构:玛希隆大学工程学院计算机工程系,泰国人工智能企业家协会(AIEAT),iApp Technology Co., Ltd.,大数据研究院(公共组织),泰国农业大学工程学院电气工程系
- 时间:2024 年 11 月
研究目标
本研究旨在开发一款先进的泰语聊天模型 OpenThaiGPT 1.5,该模型基于 Qwen v2.5 架构,并在超过 2,000,000 个泰语指令对上进行了微调。
方法
- 使用 Qwen v2.5 架构作为基础模型,并根据不同的计算资源限制和性能要求提供 70 亿和 720 亿参数两种版本。
- 在包含超过 2,000,000 个泰语指令对的多样化数据集上进行广泛的微调,以使模型适应泰语和泰国文化的细微差别。
- 使用 NeMo 框架进行微调,并使用 LoRa 技术训练 70 亿和 720 亿参数的模型。
- 创建了一个用于人类反馈强化学习(RLHF)的安全网,以确保模型不会生成或回应粗鲁或社会敏感的话题。
主要发现
- OpenThaiGPT 1.5 在各种泰语任务上展现出最先进的性能,超越了其他开源泰语语言模型。
- 该模型保留了 Qwen2.5 的所有关键特性,包括多轮对话支持、检索增强生成 (RAG) 兼容性和工具调用功能。
- OpenThaiGPT 1.5 在 OpenThaiGPT 评估数据集、泰语考试基准测试和 M3Exam 上的评估结果均优于其他开源泰语语言模型。
主要结论
OpenThaiGPT 1.5 是一款功能强大的泰语聊天模型,在各种泰语任务上均有出色表现,是泰语人工智能应用的领先选择。
意义
OpenThaiGPT 1.5 的发布为泰语自然语言处理领域提供了强大的开源工具,将推动泰语人工智能应用的发展。
局限性和未来研究
- 模型的训练数据主要来自公开可用的泰语数据集,未来可以考虑纳入更多领域和类型的私有数据,以进一步提高模型的性能和泛化能力。
- 模型的安全性还需要进一步评估和改进,以确保其在实际应用中不会被滥用或产生负面影响。
통계
OpenThaiGPT 1.5 在超过 2,000,000 个泰语指令对上进行了微调。
该模型在 OpenThaiGPT 评估数据集上实现了 65.78% 的准确率。
在泰语考试基准测试中,OpenThaiGPT 1.5 (72B) 获得了 63.89% 的分数。
在 M3Exam 中,OpenThaiGPT 1.5 (72B) 获得了 70.39% 的分数。
인용구
“OpenThaiGPT1.5 is currently the most capable open model for the Thai language.”