toplogo
Sign In

大学のコース説明を使ったSDGsの予測 - LLMsから従来のファウンデーションモデルまで


Core Concepts
大学のコース説明からSDGsを予測するためにLLMを使ってデータを生成し、その上で様々な小規模言語モデルを微調整することで、より効率的で費用対効果の高いSDGs予測を実現した。
Abstract
本研究では、大学のコース情報から国連のSDGs(持続可能な開発目標)を予測するアプローチを提案しています。 まず、ノイズの多いコース説明データセットを収集・クリーニングし、大規模言語モデルのPaLM 2を使ってSDGsの予測データを生成しました。生成されたデータを手動で確認・修正し、その上で複数の小規模言語モデルを微調整して、コース説明からSDGsを予測するモデルを構築しました。 実験の結果、BARTモデルが最も良い性能を示し、F1スコアが0.786でした。これは、大学レベルでのSDGsの適応を促進する上で有用な知見となります。 データの前処理では、コース説明の長さ制限、言語の統一、重複の排除などを行い、2,125件のコース情報を整備しました。SDGsの予測ラベルは、PaLM 2の出力を精査して生成しました。 モデルの評価では、精度、再現率、F1スコアを指標として、BERTやmBERT、RoBERTa、XLM-RoBERTa、BARTなどの性能を比較しました。BARTが最も高いF1スコアを示し、SDGs 7、8、9などでも優れた性能を発揮しました。一方で、SDGs 14、15、17などでは性能が低く、データの偏りが課題として示唆されました。 本研究は、大学教育におけるSDGsの統合を推進する上で有用な手法を提供しており、学術機関における持続可能な実践の促進につながることが期待されます。
Stats
コース説明の長さは500文字から2,000文字の範囲に制限されています。 BARTモデルのF1スコアは0.786です。
Quotes
なし

Deeper Inquiries

大学以外の教育機関でも同様のアプローチは適用できるでしょうか?

大学以外の教育機関でも同様のアプローチは適用可能です。SDGsの重要性がますます高まっている現在、教育機関全般がこれらの目標を取り入れることが求められています。他の教育機関も、自身のカリキュラムにSDGsを組み込むことで、社会的、人道的、環境的影響を理解し、持続可能な開発に貢献することができます。ただし、各機関の独自の言語やカリキュラムの特性に合わせてモデルを調整する必要があります。

SDGsの予測精度を高めるためには、どのようなデータ収集や前処理の工夫が必要でしょうか?

SDGsの予測精度を向上させるためには、適切なデータ収集と前処理が重要です。まず、データ収集段階では、コースの説明や目的に含まれるノイズを取り除くために注意深くデータをクリーニングする必要があります。また、データのバランスを保つために、各SDGの分布を確認し、偏りがないように調整することが重要です。前処理段階では、テキストデータの標準化や不要な情報の削除、重複エントリーの処理などを行うことで、モデルの学習に適したデータセットを準備する必要があります。

SDGsの実践に向けて、大学はどのように教育カリキュラムを再構築すべきでしょうか?

SDGsの実践に向けて、大学は教育カリキュラムを再構築する際にいくつかのポイントに注意する必要があります。まず、SDGsを包括的にカバーするようにカリキュラムを設計し、各コースがどのSDGsに関連しているかを明確に示すことが重要です。また、学生が持続可能な開発に関する知識やスキルを習得できるように、実践的なアプローチやプロジェクトベースの学習を導入することが効果的です。さらに、教員や学生がSDGsについて議論し、意識を高めるためのフォーラムやイベントを定期的に開催することで、持続可能な開発への取り組みを促進することができます。持続可能な開発に向けた教育カリキュラムの再構築は、社会的責任を果たす大学の重要な取り組みとなります。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star