本研究旨在開發和評估天文學專用的大型語言模型(LLM)。首先,我們回顧了現有的天文學專用LLM,包括AstroLLaMA系列。為了更全面地評估這些模型的性能,我們利用專門設計的天文學多選題基準測試集進行了量化評估。
我們發現,現有的AstroLLaMA-2-7B模型在基準測試中的表現低於原生的LLaMA-2-7B模型。為了改善這一情況,我們開發了新的AstroLLaMA-3-8B和AstroLLaMA-2-70B模型。
對於AstroLLaMA-3-8B,我們發現即使在連續預訓練(CPT)過程中使用了天文學文獻數據,其性能也無法超越原生的LLaMA-3-8B模型。然而,對於AstroLLaMA-2-70B,我們發現其在基準測試中的表現優於原生的LLaMA-2-70B模型,這表明在大型模型(70B)上進行CPT可以帶來顯著的性能提升。
我們的研究還發現,現有的專門用於微調(SFT)的天文學問答數據集規模較小,不足以維持模型在指令跟隨能力上的性能。我們計劃在未來的研究中進一步擴大SFT數據集,以期進一步提升天文學專用LLM的整體性能。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor