核心概念
TeleChatは、3億、7億、12億パラメータの大規模言語モデルのスイートであり、大規模な前処理データセットを使用して事前学習され、その後、人間の嗜好に合わせてファインチューニングされている。TeleChatは、言語理解、数学、推論、コード生成、知識ベースの質問回答などの様々なタスクで優れた性能を発揮し、他の同規模のオープンソースモデルと比較して優位性を示している。
摘要
本レポートでは、TeleChatの開発プロセスについて詳しく説明している。
データ収集:
- 多様な言語(英語、中国語)、ドメイン(金融、建設、医療など)のデータを収集し、合計1ZBのデータセットを構築した。
- データクリーニングには、ルールベースのフィルタリング、重複排除、高品質データ選択、セキュリティ処理などの手法を用いた。
モデル設計:
- 14層、16ヘッド、4096隠れ層サイズのTeleChat-3B、30層、32ヘッド、4096隠れ層サイズのTeleChat-7B、38層、32ヘッド、5120隠れ層サイズのTeleChat-12Bを開発した。
- ロータリー位置エンベディング、RMSNorm、SwiGLUアクティベーションなどの手法を採用した。
- 96kトークンの長文脈処理能力を実現するため、NTKアウェア補間、LogN-Scaling、マルチステージ長文脈トレーニングを導入した。
ファインチューニング:
- 10万以上の人手アノテーションデータを使用し、データブレンディング、ノイズ付きエンベディングファインチューニング、マルチステージ長文脈トレーニングを行った。
- 強化学習(PPO)を用いて、人間の嗜好に合わせたアラインメントを行った。
評価:
- 各種ベンチマークタスクで、同規模の他モデルと比較して優れた性能を示した。
- 知識グラフを活用することで、事実に基づかない出力(ホールシネーション)を軽減できることを示した。
統計資料
前処理データセットは合計1ZBのデータを含む。
人手アノテーションデータは10万以上のサンプルを使用した。
引述
"TeleChatは、3億、7億、12億パラメータの大規模言語モデルのスイートであり、大規模な前処理データセットを使用して事前学習され、その後、人間の嗜好に合わせてファインチューニングされている。"
"TeleChatは、言語理解、数学、推論、コード生成、知識ベースの質問回答などの様々なタスクで優れた性能を発揮し、他の同規模のオープンソースモデルと比較して優位性を示している。"
"知識グラフを活用することで、事実に基づかない出力(ホールシネーション)を軽減できることを示した。"