核心概念
ドメイン特化型の事前学習により、一般知識の性能は低下するものの、ブラジル法分野の性能が大幅に向上する。
要約
本研究では、ブラジル法分野の信頼できる情報源から収集した19億トークンのデータを用いて、Sabiá-2 Smallモデルを事前学習し、Juruモデルを開発した。
- 事前学習データは、主に以下から収集した:
- ブラジルの大学の学術論文
- ブラジル連邦法規データベース
- ブラジル連邦最高裁の判決・裁定
- Juruモデルは、ブラジル法分野の多肢選択問題の正答率が約72%と、Sabiá-2 Smallモデルから6ポイント向上した。
- 一方で、一般知識分野の正答率は、Sabiá-2 Smallモデルの68.8%から低下した。
- これは、ドメイン特化型の事前学習により、ブラジル法分野の性能が向上する一方で、他の知識分野の性能が低下することを示している。
- 今後の課題として、データの汚染リスクの低減や、ドメイン外の性能低下を抑える手法の検討が挙げられる。
統計
事前学習に使用したデータは合計19億9721万1118トークンであった。
そのうち、学術論文が18億6023万3152トークン、連邦法規が6040万2071トークン、判決・裁定が13億3295万8895トークンであった。
引用
"ドメイン特化型の事前学習により、ブラジル法分野の性能が大幅に向上する一方で、一般知識分野の性能が低下する傾向がある。"
"事前学習データの汚染リスクの低減や、ドメイン外の性能低下を抑える手法の検討が今後の課題である。"