核心概念
本文提出了一種針對開源大型語言模型 (LLM) 的大規模提示探索方法 (PrExMe),用於評估機器翻譯和摘要任務,探討了不同提示策略對評估結果的影響,並發現了一些穩定和易變的模式。
研究目標
本研究旨在探討如何利用開源大型語言模型 (LLM) 作為機器翻譯和摘要評估的指標,並系統性地評估不同提示策略對評估結果的影響。
方法
研究人員設計了超過 720 種提示模板,涵蓋了零樣本學習、思辨鏈 (CoT)、檢索增強生成 (RAG) 等多種提示技術,並對七個開源 LLM 進行了超過 660 萬次評估。評估數據集包括機器翻譯和摘要任務,並採用 Kendall、Pearson 和 Spearman 相關係數等指標來衡量評估結果與人工評分的相關性。
主要發現
研究發現,某些提示模式在不同任務和數據集上表現穩定,例如某些 LLM 偏好使用文字標籤評分,而另一些則偏好使用數值分數。
然而,即使是微小的提示變化也可能顯著影響評估結果,例如將請求的輸出格式從「0 到 100」更改為「-1 到 +1」會顯著影響模型排名。
在所測試的 LLM 中,PLATYPUS2-70B 模型整體表現最佳。
結論
本研究為基於開源 LLM 的自然語言生成評估指標提供了全面的評估框架,並揭示了不同提示策略對評估結果的影響。研究結果表明,選擇合適的提示策略對於構建穩健和可靠的 LLM 評估指標至關重要。
研究意義
本研究對於推進基於 LLM 的自然語言生成評估具有重要意義,特別是在低資源場景和時間受限的應用中。研究結果可以指導研究人員設計更有效和穩定的 LLM 評估指標,並促進開源 LLM 在自然語言處理領域的應用。
局限與未來研究方向
本研究僅探索了有限的提示策略,未來可以進一步研究其他提示技術,例如更詳細的任務指令或結構化輸出格式。
此外,本研究沒有完全排除新 LLM 模型在訓練數據中接觸過舊數據集的可能性。
未來研究可以探討如何處理 LLM 上下文窗口大小限制的問題,並進一步驗證所提出的提示策略在其他自然語言生成任務上的有效性。
统计
本文評估了超過 720 種提示模板。
研究人員對七個開源 LLM 進行了超過 660 萬次評估。
PLATYPUS2-70B 模型在 11 項任務中排名第一的次數最多,達到 9 次。