(N, K)-퍼즐은 언어 모델이 N개의 정수를 사용하여 목표 값 K에 도달하도록 요구하는 일반화된 버전의 24-퍼즐로, 언어 모델의 계산 능력, 논리적 추론 능력, 단계별 수학적 솔루션 생성 능력을 평가하는 비용 효율적인 테스트베드를 제공한다.