이 연구는 대형 언어 모델(LLM)의 암호 크로스워드 퍼즐 해결 능력을 평가합니다. 암호 크로스워드 퍼즐은 일반 지식뿐만 아니라 언어 조작 능력도 필요로 하는 어려운 퍼즐입니다. 이전 연구에 따르면 현대 NLP 모델로는 이 과제를 해결하기 어려운 것으로 나타났습니다.
이 연구에서는 LLaMA2, Mistral, ChatGPT 등 3개의 인기 있는 LLM의 성능을 벤치마크했습니다. 실험 결과, LLM의 성능은 여전히 인간 수준에 크게 미치지 못하는 것으로 나타났습니다. 제로 샷 학습, 소수 샷 학습, 파인튜닝 등 다양한 접근법을 시도했지만 LLM의 성능 향상은 제한적이었습니다. 특히 단어 초기 분리 데이터 세트와 같은 어려운 데이터 세트에서는 LLM의 성능이 크게 떨어졌습니다.
이 연구는 LLM의 암호 크로스워드 퍼즐 해결 능력에 대한 기준을 제시하고, 향후 연구 방향을 제안합니다. 체인 사고 프롬프팅, 커리큘럼 학습, 전문가 혼합 등의 접근법이 LLM의 성능 향상에 도움이 될 수 있을 것으로 보입니다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies