이 연구는 대규모 언어 모델(LLM)의 음운론적 기술을 평가하기 위해 PhonologyBench라는 새로운 벤치마크를 소개한다. PhonologyBench는 영어에서 그래프-음소 변환, 음절 계산, 라임 단어 생성의 세 가지 진단 과제로 구성된다.
연구 결과, LLM은 텍스트 데이터만으로 훈련되었음에도 불구하고 이러한 음운론적 과제에서 상당한 성능을 보였다. 그러나 음절 계산과 라임 단어 생성 과제에서는 각각 45%와 17%의 큰 격차가 관찰되었다. 또한 단일 모델이 모든 과제에서 일관되게 우수한 성능을 보이지 않았다. 이는 연구자들이 특정 하위 응용 프로그램과 관련된 핵심 과제에 대한 LLM의 성능을 고려해야 함을 시사한다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések