ComplexCodeEval是一个新的基准,旨在评估大型代码模型在各种开发场景下的性能。该基准包含来自1,055个Java项目和2,107个Python项目的大量样本,涵盖了代码生成、代码补全、API推荐和测试用例生成等多个任务。通过实验,发现大型代码模型在复杂开发环境中仍存在局限性,且不同模型在不同任务和语言上的表现各不相同。此外,丰富的上下文信息和避免数据泄露对模型性能有重要影响。