Concepts de base
本文提出了一種基於檢索增強生成(RAG)和大型語言模型(LLM)的創新方法,通過從大學網頁中提取數據並結合先進的提示工程技術,構建了一個能夠準確回答大學相關問題的問答系統。
研究目標
本研究旨在開發一種基於檢索增強生成(RAG)技術的問答系統,以提升大學相關知識的檢索效率,並解決大型語言模型(LLM)在處理本地化數據時面臨的挑戰。
方法
從大學官網中系統地提取數據,構建了一個名為「UniversityQuestionBench (UQB)」的大學基準數據集。
採用雙階段 RAG 方法,結合波斯語大型語言模型(PLM)和先進的提示工程技術,開發了一個問答系統。
首先,系統會對查詢進行分類,以識別最相關的文檔。
然後,系統會使用適當的 LLM 生成準確且與上下文相關的答案。
使用 RAGAS 評估指標(包括忠實度、答案相關性和上下文相關性)對系統進行評估。
主要發現
實驗結果表明,該系統在生成答案的準確性和相關性方面有顯著提高,提升了用戶體驗,並減少了獲取相關答案所需的時間。
與其他模型和嵌入技術相比,使用 Dorna 模型和 Dorna 嵌入技術的系統在忠實度、答案相關性和上下文相關性方面均取得了最佳性能。
主要結論
本研究提出了一種基於 RAG 和 LLM 的新型應用,並通過精心準備的大學基準數據集,為學術數據檢索提供了有價值的見解,為該領域的未來研究奠定了基礎。
結合 RAG 技術和本地化數據集的 LLM 在處理特定領域問題方面具有巨大潛力。
意義
本研究為提升大學信息系統的效率和準確性提供了一種新的思路,並為開發更智能、更人性化的教育工具奠定了基礎。
局限性和未來研究方向
未來可以進一步擴展數據集的多樣性,納入更多樣化的問題和答案,以提高模型在更廣泛學術主題和背景下的穩健性。
可以考慮整合來自多所大學的數據,以增強數據集的泛化性和通用性。
建議將數據集與課程選擇部門進行整合,以便實時更新,確保數據集的時效性和準確性。
Stats
使用 Dorna 模型和 Dorna 嵌入技術的系統在忠實度方面達到了 0.839。
使用 Dorna 模型和 Dorna 嵌入技術的系統在答案相關性方面達到了 0.823。
使用 Dorna 模型和 Dorna 嵌入技術的系統在上下文相關性方面達到了 0.216。