핵심 개념
GeoGalacticaは、地球科学分野の大規模言語モデルであり、地球科学に関する広範な知識と能力を備えている。
초록
本研究では、地球科学分野の大規模言語モデル「GeoGalactica」を開発した。GeoGalacticaは、Galacticaをベースモデルとして、さらに地球科学関連のテキストデータで事前学習を行い、地球科学分野の専門知識を獲得した。その後、地球科学分野の質問応答データを使ってファインチューニングを行い、地球科学分野の様々なタスクに優れた性能を発揮する。
具体的には以下の手順で開発された:
- 地球科学関連の論文、教科書、辞書などから65億トークンの大規模なデータセット「GeoCoprus」を構築した。
- GeoCoprusを使って、Galacticaをさらに事前学習した。
- 地球科学分野の質問応答データ「GeoSignal」を使ってファインチューニングを行った。
- 地球科学分野の各種ベンチマークや人間評価によって、GeoGalacticaの優れた性能を確認した。
GeoGalacticaは、地球科学分野の知識抽出、文書分類、質問応答、知識発見など、幅広いNLPタスクで優れた性能を発揮する。また、地球科学分野の研究や実践に活用できる可能性を秘めている。本研究では、GeoGalacticaの開発プロセスや評価結果を詳細に報告している。
통계
地球科学関連の論文、教科書、辞書などから構築した65億トークンの大規模データセット「GeoCoprus」を使用した。
1百万件の地球科学分野の質問応答データ「GeoSignal」を使ってファインチューニングを行った。
인용구
「GeoGalacticaは、地球科学分野の知識抽出、文書分類、質問応答、知識発見など、幅広いNLPタスクで優れた性能を発揮する。」
「GeoGalacticaは、地球科学分野の研究や実践に活用できる可能性を秘めている。」