이 연구는 대규모 언어 모델(LLM)의 음운론적 기술을 평가하기 위해 PhonologyBench라는 새로운 벤치마크를 소개한다. PhonologyBench는 영어에서 그래프-음소 변환, 음절 계산, 라임 단어 생성의 세 가지 진단 과제로 구성된다.
연구 결과, LLM은 텍스트 데이터만으로 훈련되었음에도 불구하고 이러한 음운론적 과제에서 상당한 성능을 보였다. 그러나 음절 계산과 라임 단어 생성 과제에서는 각각 45%와 17%의 큰 격차가 관찰되었다. 또한 단일 모델이 모든 과제에서 일관되게 우수한 성능을 보이지 않았다. 이는 연구자들이 특정 하위 응용 프로그램과 관련된 핵심 과제에 대한 LLM의 성능을 고려해야 함을 시사한다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor