แนวคิดหลัก
大規模言語モデルの中国教育価値を包括的に評価するためのベンチマークEdu-Valuesを提案する。
บทคัดย่อ
本研究は、大規模言語モデル(LLM)の中国教育価値の包括的な評価を目的としたEdu-Valuesベンチマークを提案している。
Edu-Valuesは以下の7つの次元から構成される:
専門的イデオロギー: 教育、生徒、教師に対する正しい見方を持ち、質の高い教育の実施要件を理解することを評価する。
教育法規: 主要な教育法規の知識と教師の権利義務、生徒の法的権利の理解を評価する。
教師の職業倫理: 教師の職業倫理規範に沿って行動し、教育活動における人間関係を適切に管理できることを評価する。
文化リテラシー: 科学的、文学的、歴史的、芸術的リテラシーの基礎を持っていることを評価する。
基本的能力: 読解力、論理的思考力、情報処理力、教育的文章作成力を評価する。
教育知識・技能: 基本的な教育理論の習得、生徒指導・授業管理、教科知識の統合的活用力を評価する。
教科知識: 言語、数学、化学、音楽、美術などの教科知識と指導設計・実施・評価力を評価する。
合計1,418問の問題を収集し、10種類のLLMを評価した結果、以下の3つの主要な発見があった:
中国のLLMは英語のLLMを大きく上回る。Qwen2-72Bが最高得点の81.37点を獲得した。
LLMは教科知識と指導技術では良好だが、教師の職業倫理と基本的能力では課題がある。
LLMは多肢選択問題に優れるが、主観的分析やマルチモーダルタスクでは苦手である。
Edu-Valuesは、LLMの教育分野での価値観整合性を包括的に評価し、教育分野でのLLM活用における潜在的リスクを明らかにすることができる。
สถิติ
中国の教師資格試験の過去問から収集した多肢選択問題が1,085問ある。
マルチモーダル問題が100問ある。
主観的分析問題が113問ある。
対抗問題が100問ある。
中国の伝統文化に関する問題が20問ある。
คำพูด
"LLMは教科知識と指導技術では良好だが、教師の職業倫理と基本的能力では課題がある。"
"LLMは多肢選択問題に優れるが、主観的分析やマルチモーダルタスクでは苦手である。"