本研究では、PECC (Problem Extraction and Coding Challenges)と呼ばれる新しいベンチマークを紹介する。PECCは、Advent of Code (AoC)とProject Eulerから収集した2,396個の問題で構成されており、物語的な問題記述から要件を抽出し、実行可能なコードを生成することを評価する。
PECCの特徴は以下の通り:
実験の結果、大規模言語モデルは物語的な問題記述よりも簡潔な問題記述の方が良い成績を収めることが分かった。また、数学的な問題を含むProject Eulerの問題では、特に成績が低かった。これは、大規模言語モデルの問題理解能力と論理的な問題解決能力に課題があることを示唆している。
PECCは、大規模言語モデルの問題解決能力を包括的に評価するための有用なベンチマークとなる。今後の研究では、チェーン思考などの手法を用いて、大規模言語モデルの問題解決能力をさらに向上させることが期待される。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문