本研究では、大規模言語モデルの発音スキルを評価するための新しいベンチマーク「PhonologyBench」を提案した。PhonologyBenchは、英語の発音に関する3つの診断タスク – 文字から発音への変換、音節数カウント、ライム生成 – から構成される。
全体的な結果として、大規模言語モデルは発音に関する基本的な理解を示したが、人間に比べて大幅に劣っていることが分かった。特に、音節数の判別とライム生成の課題で45%と17%の大きな差がある。
さらに分析を行った結果、以下の知見が得られた:
最後に、本研究では単一のモデルが全てのタスクで最高の性能を示すわけではないことを明らかにした。したがって、アプリケーションに応じて適切なモデルを選択することが重要であると結論付けている。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Ashima Suvar... um arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02456.pdfTiefere Fragen