Grunnleggende konsepter
我們提出了一種方法,利用指令調整的大型多模態模型自動從教育內容中提取知識元件。我們通過在五個領域的知識追蹤基準測試中全面評估,證明自動提取的知識元件可以有效取代人工標記的標籤,為在數據有限的情況下增強智能輔導系統,在教育環境中實現更可解釋的評估,並為自動評估奠定基礎。
Sammendrag
本文提出了一種利用指令調整的大型多模態模型(LMM)從教育多媒體內容中提取和利用知識元件(KCs)的新方法。
- 內容處理:
- 從CMU DataShop獲取的OLI學習材料中提取文本、圖像和音頻。
- 使用whisper-large-v2模型將MP3音頻轉換為文本。
- 請求OpenAI API以保留原始HTML內容中的圖像位置和順序。
- 知識元件提取:
- 使用OpenAI的GPT-4o模型從每個問題中提取知識元件。
- 每個知識元件包含一個名稱(1-3個單詞)和一個描述(1-2個句子)。
- 知識元件聚類:
- 計算每個知識元件的句子嵌入,並基於相似性進行聚類。
- 通過最大化聚類的輪廓分數來確定最佳聚類數。
- 比較了Sentence-T5-XXL模型和OpenAI的text-embedding-3-large模型的性能。
- 知識元件質量評估:
- 使用加性因素模型(AFM)測量根均方誤差(RMSE),並將其與人工生成的KC映射進行比較。
- 通過屏蔽學生ID和項目ID信息來進行消融實驗,以識別模型利用的偏差。
- 分析不同聚類數量下AFM的性能變化,以評估KC一致性。
- 知識追蹤基準測試:
- 使用人工生成的KC、隨機生成的KC和我們的LMM生成的KC,在四種不同的知識追蹤模型上進行評估。
- 還測試了在完全看不見的項目上的零shot知識追蹤性能。
總的來說,我們的方法展示了自動生成的知識元件可以有效取代人工生成的標籤,為智能輔導系統的發展提供了一個有前景的方向。我們還發布了可重複使用的知識追蹤基準,推動了基於內容的知識追蹤方法的發展。
Statistikk
使用大型多模態模型從多媒體問題資訊中提取知識元件,可以有效取代人工生成的標籤,為智能輔導系統的發展提供了一個有前景的方向。
Sitater
"我們提出了一種方法,利用指令調整的大型多模態模型自動從教育內容中提取知識元件。"
"我們通過在五個領域的知識追蹤基準測試中全面評估,證明自動提取的知識元件可以有效取代人工標記的標籤,為在數據有限的情況下增強智能輔導系統,在教育環境中實現更可解釋的評估,並為自動評估奠定基礎。"