Core Concepts
천문학 문헌에서 과학 개체를 주석하는 데 있어 도메인 전문가의 부족을 해결하기 위해 GPT-3.5 모델을 활용하여 도메인 전문가가 아닌 주석자를 지원하는 접근법을 제안한다.
Abstract
이 연구에서는 천문학 분야 NER 모델 개발의 주요 과제인 적절한 레이블링된 데이터의 부족 문제를 다룬다. 도메인 전문가의 도움 없이도 비전문가 주석자가 천문학 문헌 내 과학 개체를 주석할 수 있도록 fine-tuned LLM 모델의 예측을 활용하는 접근법을 실험한다.
결과적으로 도메인 전문가와 LLM 보조 비전문가 주석자 간 중간 수준의 일치도와 도메인 전문가와 LLM 모델 예측 간 적절한 일치도를 보였다. 추가 실험에서는 fine-tuned와 기본 LLM의 성능을 비교하였다. 또한 천문학 분야 과학 개체 주석 체계를 개발하고 도메인 전문가의 검증을 거쳤다. 이 접근법은 연구 주제와 관련된 과학 개체에 초점을 맞추는 학술 연구 기여 중심 관점을 채택한다. 결과적으로 5,000개의 천문학 논문 제목이 주석된 데이터셋을 공개한다.
Stats
천문학 문헌에서 가장 많이 나타나는 개체는 ResearchProblem(3,801회)과 Method(3,169회)이다.
그 외 Process(1,273회), AstrObject(143회), Measurement(320회) 등이 주요 개체이다.
Quotes
"천문학 문헌에는 개념이나 현상의 목록만 나열되어 있어 명시적인 관계가 없는 경우가 많다."
"연구 문제가 암시적으로만 제시되어 있는 경우가 많다."
"특정 방법이 어떤 맥락에서 사용되는지 명확하지 않은 경우가 많다."