Core Concepts
自動評価と人間評価は翻訳の形式的忠実度を測る点で収束するが、意味的・語用論的忠実度を評価する際には発散する。特に、プロンプトエンジニアリングによるChatGPTの翻訳改善は自動評価では捉えきれない。
Abstract
本研究は、ChatGPTと3つの神経機械翻訳(NMT)システムの翻訳出力を自動評価と人間評価の両面から比較・分析した。
自動評価では、BLEUやChrFなどの一般的な指標では、ChatGPTはNMTシステムに劣るが、意味的類似度を測るBERTScoreやCOMETでは優れた性能を示した。これは、ChatGPTが文脈理解と言語生成に優れ、正確な単語一致よりも意味的忠実度を重視するためと考えられる。
一方、人間評価では、ChatGPTにプロンプトを与えることで大幅な翻訳品質の向上が見られた。特に、1つの例文を与えただけでも、ChatGPTは人間評価の全ての指標で最高点を獲得した。これに対し、NMTシステムの間に大きな差は見られなかった。
人間評価では、ChatGPTの主な課題は文体面の誤りであり、NMTシステムは正確性の面で劣っていた。自動評価と人間評価の相関は全体的に弱く、統計的に有意ではなかった。これは、自動指標が捉えきれない文化適切性、明瞭性、実用性などの重要な側面を人間評価が反映しているためと考えられる。
本研究の結果は、自動評価指標の限界と、プロンプトの重要性を示唆している。今後は、人間評価の洞察を取り入れた新たな自動評価手法の開発が求められる。また、ChatGPTのような言語モデルの翻訳能力を最大限引き出すためのプロンプト設計についても、さらなる研究が必要である。
Stats
ChatGPTの0ショット条件の翻訳では、主要なエラーの割合が高かった。
ChatGPTに1つの例文を与えると、重大なエラーの割合が大幅に減少した。
NMTシステムでは、正確性に関するエラーが最も多く見られた。
Quotes
"自動評価と人間評価は、翻訳の形式的忠実度を測る点で収束するが、意味的・語用論的忠実度を評価する際には発散する。"
"特に、プロンプトエンジニアリングによるChatGPTの翻訳改善は自動評価では捉えきれない。"
"人間評価では、ChatGPTの主な課題は文体面の誤りであり、NMTシステムは正確性の面で劣っていた。"