本文介紹了ForecastBench,一個動態的基準測試系統,用於評估機器學習系統在預測未來事件方面的準確性。該系統自動生成和定期更新1,000個預測問題,並收集專家、普通大眾和大型語言模型的預測,以量化當前系統的預測能力。初步結果顯示,即使使用檢索增強和提示工程,頂級語言模型的表現仍然不如專家預測者。


coremsg

人工智能預測能力的動態基準測試