核心概念
大規模言語モデルはスポーツの統計情報を正確に処理および分析することが難しいことが示された。
摘要
この論文では、NBAとNFLの試合からプレイバイプレイデータを分析し、各チームが獲得した総得点を計算するモデルの能力に焦点を当てました。OpenAIのGPTシリーズやClaude、Gemini、Llamaなどの進歩があったにもかかわらず、これらのモデルは一般的にスポーツの分析的推論タスクで苦労しています。異なるモデル間で性能に大きな差異があり、特定のシナリオではGPT-4が比較的良好な結果を示しています。さらに、Chain of Thoughtプロンプティングなどの技術を使用した場合に特定のシナリオで優れた結果を示すことも明らかになりました。
統計資料
GPT-4は11%の精度率を達成しました。
Claude-2.1、GPT-3.5、Gemini-Pro、Llama-2-70bはそれぞれ5%未満の精度率を持っていました。
GPT-4とClaude 2.1はChain of Thought戦略から利益を得ましたが、他のモデルでは否定的または有害な影響がありました。
引述
"Among all the models we employed, GPT-4 stands out in effectiveness."
"We found that LLMs still struggle with accurately processing and analyzing sports statistics."
"Our research provides valuable insights into the complexity of analytical reasoning tasks."