Core Concepts
大学のコース説明からSDGsを予測するためにLLMを使ってデータを生成し、その上で様々な小規模言語モデルを微調整することで、より効率的で費用対効果の高いSDGs予測を実現した。
Abstract
本研究では、大学のコース情報から国連のSDGs(持続可能な開発目標)を予測するアプローチを提案しています。
まず、ノイズの多いコース説明データセットを収集・クリーニングし、大規模言語モデルのPaLM 2を使ってSDGsの予測データを生成しました。生成されたデータを手動で確認・修正し、その上で複数の小規模言語モデルを微調整して、コース説明からSDGsを予測するモデルを構築しました。
実験の結果、BARTモデルが最も良い性能を示し、F1スコアが0.786でした。これは、大学レベルでのSDGsの適応を促進する上で有用な知見となります。
データの前処理では、コース説明の長さ制限、言語の統一、重複の排除などを行い、2,125件のコース情報を整備しました。SDGsの予測ラベルは、PaLM 2の出力を精査して生成しました。
モデルの評価では、精度、再現率、F1スコアを指標として、BERTやmBERT、RoBERTa、XLM-RoBERTa、BARTなどの性能を比較しました。BARTが最も高いF1スコアを示し、SDGs 7、8、9などでも優れた性能を発揮しました。一方で、SDGs 14、15、17などでは性能が低く、データの偏りが課題として示唆されました。
本研究は、大学教育におけるSDGsの統合を推進する上で有用な手法を提供しており、学術機関における持続可能な実践の促進につながることが期待されます。
Stats
コース説明の長さは500文字から2,000文字の範囲に制限されています。
BARTモデルのF1スコアは0.786です。