TheoremLlama는 대규모 언어 모델(LLM)을 Lean4 정리 증명 전문가로 훈련시키는 새로운 프레임워크로, 자연어 처리 능력을 활용하여 Lean4 증명을 생성합니다.
본 논문에서는 비교적 간단한 프로그램 속성 증명 능력을 평가하기 위한 새로운 벤치마크인 miniCodeProps를 소개하며, 이는 기존의 자동 정리 증명 모델이 해결하기 어려움을 보여주고 코드 검증을 위한 자동화된 정리 증명 분야의 추가 연구 필요성을 강조합니다.
본 논문에서는 기존의 전술 생성 및 검색 구성 요소 위에 필터링 메커니즘을 추가하여 증명 검색을 향상시키는 새로운 접근 방식인 3D-Prover를 제안합니다. 3D-Prover는 결정론적 점 프로세스를 사용하여 전술 후보를 의미적으로 다양하고 높은 품질의 부분 집합으로 필터링하여 증명 검색 공간을 효과적으로 줄입니다.
InternLM2.5-StepProver는 대규모 LEAN 문제 데이터셋에 대한 전문가 반복 학습을 통해 자동 정리 증명 능력을 향상시켰으며, 특히 난이도가 높은 문제에 대한 증명 탐색 효율성을 높이기 위해 critic 모델을 활용하는 방법을 제시했습니다.