대형 언어 모델은 코드 합성 능력이 있지만, 코드 실행 흐름을 이해하고 추론하는 능력은 제한적이다. 코드 합성 성능과 코드 추론 능력은 서로 상관관계가 낮으며, 코드 추론 능력을 평가하기 위한 별도의 프레임워크가 필요하다.