Core Concepts
大規模言語モデルであるChatGPTとGeminiは、ポルトガル語の言語的曖昧性を検出、分類、解消、生成する際に重大な限界を示している。
Abstract
本研究は、ChatGPTとGeminiの言語的曖昧性処理能力を評価するために行われた。120の曖昧および非曖昧な文章を使用し、4つのタスクを実施した。
タスク1では、モデルの曖昧性検出精度を評価した。ChatGPTは28.75%、Geminiは49.58%の正確度しか示さず、両モデルとも非曖昧文章を曖昧と誤認する傾向があった。
タスク2では、モデルの曖昧性タイプ識別能力を評価した。語彙的曖昧性の場合、両モデルは比較的良好な成績を収めたが、統語的および意味的曖昧性の識別では大きな課題を抱えていた。
タスク3では、モデルの曖昧性解消能力を評価した。両モデルとも非曖昧文章に対して不要な曖昧性解消を行う傾向があり、特に統語的曖昧性の解消に困難を示した。
タスク4では、モデルの曖昧性文章生成能力を評価した。語彙的曖昧性の生成に最も苦手を示し、統語的曖昧性の生成でも一定の成功を収めたものの、その原因の説明には課題が残された。
全体として、これらのバージョンのChatGPTとGeminiは、ポルトガル語の複雑な言語的曖昧性を十分に理解・処理できていないことが明らかになった。今後、監督学習を通じた記述的研究の必要性が示唆された。
Stats
ChatGPTは曖昧性検出で28.75%の正確度しか示さなかった。
Geminiは曖昧性検出で49.58%の正確度を示した。
両モデルとも非曖昧文章を曖昧と誤認する傾向があった。
Quotes
"ChatGPTは曖昧性検出で28.75%の正確度しか示さなかった。"
"Geminiは曖昧性検出で49.58%の正確度を示した。"
"両モデルとも非曖昧文章を曖昧と誤認する傾向があった。"