核心概念
Newclid는 사용자 친화성을 개선하고 기하학적 정리 증명 능력을 향상시킨 AlphaGeometry의 리팩토링 버전으로, 사용자 인터페이스 개선, 기본 정리 지원 강화, 코드 모듈화 및 시각화 도구 제공을 통해 사용성과 확장성을 높였습니다.
要約
Newclid: 사용자 친화적인 기하 증명 솔버
본 문서는 국제 수학 올림피아드(IMO) 수준의 기하 문제를 풀 수 있는 기존의 기하 증명 솔버인 AlphaGeometry의 문제점을 개선하고 사용자 편의성을 높인 Newclid를 소개합니다.
AlphaGeometry의 문제점
- 사용자 친화성 부족: 설치의 어려움, JGEX 형식 언어 사용, 숨겨진 규칙 존재 등 사용자 접근성이 떨어짐.
- 개발자 친화성 부족: 모듈화되지 않은 코드베이스, 널리 사용되지 않는 딥러닝 라이브러리(Meliad) 사용으로 인해 코드 이해 및 기능 추가가 어려움.
- 제한적인 문제 해결 범위: 피타고라스 정리와 같은 기본적인 기하학적 정리 지원 부족으로 실용적인 문제 해결에 제한적임.
Newclid의 개선 사항
- 사용자 친화성 향상:
- PyPI를 통한 간편한 설치 및 API 제공.
- 명령줄 인터페이스(CLI) 및 GeoGebra 인터페이스 제공으로 사용자 편의성 증대.
- 피타고라스 정리와 같은 기본 정리 지원을 통해 문제 해결 범위 확장.
- 개발자 친화성 향상:
- 코드 리팩토링 및 모듈화를 통해 코드 가독성 및 유지 관리성 향상.
- 디버깅 및 시각화 도구 제공으로 개발 편의성 증대.
- 새로운 술어, 정의, 규칙 추가 및 기존 기능 개선을 통해 추론 엔진 성능 향상.
- 재현성: AlphaGeometry 및 Newclid의 재현성에 대한 자세한 정보 제공.
- 상세한 평가: AlphaGeometry의 DDAR 솔버와 Newclid의 DDARN 솔버를 AG-30 데이터 세트의 5가지 문제에 대해 비교 분석하여 Newclid의 성능 향상을 입증.
Newclid의 미래
향후 Newclid는 개선된 LLM을 포함하도록 개발될 예정이며, 이는 DDARN을 조작하는 에이전트의 한 예시가 될 것입니다.
統計
Newclid는 AlphaGeometry가 해결하지 못했던 AG-30 데이터 세트의 5가지 문제 중 하나를 추가로 해결했습니다.
DDAR + human heuristics 방법은 AG-30 데이터 세트의 60%, AG-231 데이터 세트의 92.2%를 해결했습니다.
DDAR + LLM 방법은 AG-30 데이터 세트의 약 83.3%, AG-231 데이터 세트의 약 98.7%를 해결했습니다.
Newclid는 기존 AlphaGeometry의 16,000줄의 복잡한 코드를 리팩토링하여 가독성과 모듈성을 향상시켰습니다.