大規模言語モデル(LLMs)のコーディング能力を評価するための包括的な枠組みであるCatCodeは、現行の評価方法の限界に対処し、カテゴリー理論がLLMsのコーディング能力を総合的に評価するための包括的な枠組みを提供します。この研究では、異なるデータセットにおけるモデルのパフォーマンスを分析し、異なるタスクにおける成功率や失敗要因を明らかにしています。また、モデルが特定のコード変換タスクでどれだけ正確かを示すために実行ベースのテストも使用されています。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문