核心概念
프로그램 실행 중 발생하는 중간 상태 및 동작을 고려하여 코드 언어 모델의 추론 능력을 종합적으로 평가하는 새로운 프레임워크를 제안한다.
摘要
이 논문은 대형 언어 모델의 코드 추론 능력을 평가하기 위한 새로운 프레임워크 REval을 제안한다. 기존 벤치마크는 입력과 출력만을 고려하지만, REval은 프로그램 실행 중 발생하는 중간 상태와 동작을 추가로 고려한다.
REval의 두 가지 주요 구성요소는 다음과 같다:
- 런타임 동작 추론(Runtime Behavior Reasoning):
- 코드 커버리지 예측(CCP): 특정 문장이 실행되는지 여부 예측
- 프로그램 상태 예측(PSP): 변수의 값과 타입 예측
- 실행 경로 예측(EPP): 다음에 실행될 문장 예측
- 출력 예측(OP): 프로그램 출력 예측
- 점진적 일관성 평가(Incremental Consistency Evaluation):
- 순차적으로 관련된 추론 과제들 간의 논리적 일관성을 평가
- 이전 과제의 결과가 다음 과제의 선결조건이 되는 특성을 활용
실험 결과, 대부분의 언어 모델이 런타임 동작 추론과 점진적 일관성 평가에서 만족스럽지 않은 성능을 보였다. 이는 코드 언어 모델의 코드 추론 능력 향상을 위한 중요한 과제임을 시사한다.
统计
평균 정확도가 44.4%에 불과하여 대부분의 언어 모델이 런타임 동작 추론에서 만족스럽지 않은 성능을 보였다.
점진적 일관성 점수가 평균 10.3으로 매우 낮아, 언어 모델들이 순차적 추론 과제에서 일관성을 유지하지 못함을 보여준다.
引用
"Typically, they focus on predicting the input and output of a program, ignoring the evaluation of the intermediate behavior during program execution, as well as the logical consistency (e.g., the model should not give the correct output if the prediction of execution path is wrong) when performing the reasoning."
"Evaluation results of current code LLMs reflect the urgent need for the community to strengthen the code reasoning capability of code LLMs."