言語モデルは、複雑なソフトウェア開発タスクを解決するのに十分な能力を持っていない。SWE-benchは、実世界のGitHubイシューを解決するための新しい評価フレームワークであり、言語モデルの実用性、知性、自律性を向上させるための重要なステップとなる。