Core Concepts
대형 언어 모델은 암호 크로스워드 퍼즐을 해결하는 데 여전히 인간 수준에 크게 미치지 못한다.
Abstract
이 연구는 대형 언어 모델(LLM)의 암호 크로스워드 퍼즐 해결 능력을 평가합니다. 암호 크로스워드 퍼즐은 일반 지식뿐만 아니라 언어 조작 능력도 필요로 하는 어려운 퍼즐입니다. 이전 연구에 따르면 현대 NLP 모델로는 이 과제를 해결하기 어려운 것으로 나타났습니다.
이 연구에서는 LLaMA2, Mistral, ChatGPT 등 3개의 인기 있는 LLM의 성능을 벤치마크했습니다. 실험 결과, LLM의 성능은 여전히 인간 수준에 크게 미치지 못하는 것으로 나타났습니다. 제로 샷 학습, 소수 샷 학습, 파인튜닝 등 다양한 접근법을 시도했지만 LLM의 성능 향상은 제한적이었습니다. 특히 단어 초기 분리 데이터 세트와 같은 어려운 데이터 세트에서는 LLM의 성능이 크게 떨어졌습니다.
이 연구는 LLM의 암호 크로스워드 퍼즐 해결 능력에 대한 기준을 제시하고, 향후 연구 방향을 제안합니다. 체인 사고 프롬프팅, 커리큘럼 학습, 전문가 혼합 등의 접근법이 LLM의 성능 향상에 도움이 될 수 있을 것으로 보입니다.
Stats
암호 크로스워드 퍼즐을 해결하는 LLaMA 모델의 정확도는 0.2%에 불과했습니다.
암호 크로스워드 퍼즐을 해결하는 Mistral 모델의 정확도는 0.8%였습니다.
ChatGPT 모델의 정확도는 제로 샷 학습에서 6.6%, 소수 샷 학습에서 9.5%였습니다.
Quotes
"암호 크로스워드 퍼즐은 일반 지식뿐만 아니라 언어 조작 능력도 필요로 하는 어려운 퍼즐이다."
"현대 NLP 모델로는 암호 크로스워드 퍼즐을 해결하기 어려운 것으로 나타났다."