Core Concepts
InternLM2是一个性能卓越的大型语言模型,通过创新的预训练和对齐技术,在多个维度和基准测试中表现出色,并展现出出色的长上下文建模能力和对齐性能。
Abstract
本文介绍了InternLM2,这是一个新的大型语言模型。InternLM2在以下几个方面有所突破:
预训练数据处理:详细介绍了文本数据、代码数据和长上下文数据的预处理流程,确保了高质量的预训练数据。
长上下文建模:InternLM2采用了分组查询注意力机制,并在预训练阶段逐步增加上下文长度,最终在200k上下文的"针尖在干草堆"测试中表现出色。
对齐训练:InternLM2采用了监督微调和条件在线强化学习(COOL RLHF)的方法,通过条件奖励模型协调不同的人类偏好,并进行多轮在线RLHF训练,以减少奖励操纵。
性能评估:InternLM2在多个维度和基准测试中表现出色,包括语言和知识、推理和数学、编码等,并在主观评估中也展现出优秀的对齐性能。
模型发布:InternLM2提供了不同训练阶段和模型规模的版本,为研究社区提供了宝贵的见解。
Stats
预训练数据总量达2.0T到2.6T个token。
长上下文训练阶段使用了50%长于4096个token的数据。
能力特定增强训练阶段使用了240亿个token的高质量数据。