核心概念
本文介紹了ForecastBench,一個動態的基準測試系統,用於評估機器學習系統在預測未來事件方面的準確性。該系統自動生成和定期更新1,000個預測問題,並收集專家、普通大眾和大型語言模型的預測,以量化當前系統的預測能力。初步結果顯示,即使使用檢索增強和提示工程,頂級語言模型的表現仍然不如專家預測者。
摘要
本文介紹了ForecastBench,這是一個動態的基準測試系統,用於評估機器學習系統在預測未來事件方面的準確性。
- 系統自動從9個不同的數據源每天收集新的預測問題,並定期從中抽取1,000個標準化的預測問題。
- 系統收集來自自動系統和人類預測者的預測,並在問題解決後更新公開排行榜。
- 初步結果顯示,即使使用檢索增強和提示工程,頂級語言模型的表現仍然不如專家預測者。專家預測者在統計上顯著優於普通大眾和最佳語言模型(p值≤0.01)。
- 該系統旨在成為一個準確的實時基準,以跟踪和比較最先進的預測模型。它還提供了一個包含模型和人類預測的輔助數據集,供未來的微調和測試使用。
統計資料
"專家預測者的整體布里爾分數為0.093,而普通大眾的整體布里爾分數為0.107。"
"頂級語言模型的整體布里爾分數在0.111到0.122之間,顯著低於專家預測者。"
引述
"專家預測者在統計上顯著優於普通大眾和最佳語言模型(p值≤0.01)。"
"即使使用檢索增強和提示工程,頂級語言模型的表現仍然不如專家預測者。"