核心概念
GeoGalactica는 지구과학 분야의 방대한 데이터를 활용하여 사전 학습된 대규모 언어 모델로, 지구과학 관련 다양한 자연어 처리 과제에서 탁월한 성능을 보여줍니다.
摘要
이 연구에서는 지구과학 분야의 대규모 언어 모델 GeoGalactica를 개발하였습니다.
데이터 수집 및 정제 과정:
- 지구과학 관련 약 600만 편의 연구 논문을 수집하여 GeoCoprus 데이터셋을 구축하였습니다.
- 지구과학 관련 질문-답변 데이터셋인 GeoSignal V2를 구축하였습니다. 이는 일반적인 자연어 처리 과제와 지식 집약적인 지구과학 과제로 구성되어 있습니다.
모델 학습 과정:
- Galactica-30B 모델을 기반으로 GeoCoprus 데이터로 추가 사전 학습을 진행하였습니다.
- GeoSignal V2 데이터로 감독 학습 미세조정을 수행하였습니다.
모델 평가:
- GeoBench 벤치마크와 전문가 평가를 통해 GeoGalactica의 우수한 성능을 검증하였습니다.
- 지구과학 관련 정의, 질문-답변, 연구 논문 제목 생성 등의 과제에서 탁월한 결과를 보여주었습니다.
GeoGalactica는 지구과학 분야의 대규모 언어 모델로, 다양한 지구과학 관련 자연어 처리 과제에 활용될 수 있을 것으로 기대됩니다.
統計資料
지구과학 관련 연구 논문 약 600만 편으로 구성된 GeoCoprus 데이터셋
지구과학 관련 질문-답변 데이터 100만 쌍으로 구성된 GeoSignal V2 데이터셋
引述
"GeoGalactica는 지구과학 분야의 방대한 데이터를 활용하여 사전 학습된 대규모 언어 모델로, 지구과학 관련 다양한 자연어 처리 과제에서 탁월한 성능을 보여줍니다."
"GeoGalactica는 지구과학 분야의 대규모 언어 모델로, 다양한 지구과학 관련 자연어 처리 과제에 활용될 수 있을 것으로 기대됩니다."