Core Concepts
本研究では、医療分野の高品質なベトナム語-英語並列データセットMedEVを開発し、様々な機械翻訳モデルの性能を包括的に評価した。実験結果は、fine-tuningしたvinai-translateモデルが最高の翻訳精度を達成することを示している。
Abstract
本研究の主な内容は以下の通りです:
医療分野の高品質なベトナム語-英語並列データセットMedEVを開発した。MedEVには約36万件の文対が含まれている。
MedEVデータセットを使用して、Google Translate、ChatGPT、最先端のベトナム語-英語機械翻訳モデル、および事前学習された多言語翻訳モデルの性能を包括的に評価した。
fine-tuningしたvinai-translateモデルが最高の翻訳精度を達成し、Google Translateを大幅に上回ることが示された。特に、英語-ベトナム語翻訳では4ポイント以上、ベトナム語-英語翻訳では3ポイント以上の改善が見られた。
文長別およびジャンル別の分析から、医療テキストの翻訳精度は文長が長くなるほど、また標準化された医療マニュアルのようなジャンルで高くなることが明らかになった。
MedEVデータセットを公開し、ベトナム語-英語医療機械翻訳の研究と応用の基盤となることを目指している。
Stats
医療分野の文書は一般的に長い文が多く、文長が長いほど機械翻訳の精度が高くなる傾向がある。
標準化された医療マニュアルのようなジャンルの文書は、医療用語の使用が一貫しているため、機械翻訳の精度が高くなる。
医療論文の抄録のようなジャンルは、専門用語が多く使われるため、機械翻訳の精度が相対的に低くなる。