Centrala begrepp
マルチモーダル機械翻訳の性能を向上させるために、より多くの曖昧性と視覚的概念の多様性を含むデータセットを提案する。
Sammanfattning
本研究では、3AMと呼ばれる新しいマルチモーダル機械翻訳データセットを提案している。このデータセットは、既存のビジョン・ランゲージデータセットから曖昧な文章を収集し、専門の翻訳者によって中国語に翻訳されたものである。
データセットの構築プロセスは以下の通りである:
- 既存のワード・センス曖昧性解消(WSD)データセットから曖昧な単語を抽出し、単語の意味辞書を構築する。
- 単語の意味辞書を使って、曖昧な単語を含む文章を抽出し、WSD モデルを使ってスコア付けする。
- 高スコアの文章を選択し、専門の翻訳者によって中国語に翻訳する。
3AMデータセットの分析結果から、既存のマルチモーダルデータセットに比べて、3AMには以下のような特徴があることが分かった:
- 文章が長く、語彙が豊富
- 画像の多様性が高い
- 物体の出現頻度がより均等
さらに、3AMデータセットを使って複数のマルチモーダル機械翻訳モデルを評価した結果、視覚情報を活用できるモデルが、テキストのみのモデルよりも優れた性能を示すことが明らかになった。これは、3AMデータセットが視覚情報の理解を促進することを示唆している。
Statistik
文章の長さが長く、語彙が豊富であることから、マルチモーダル機械翻訳モデルにとってより挑戦的なデータセットであるといえる。
画像の多様性が高く、物体の出現頻度がより均等であるため、モデルが視覚情報を十分に活用する必要がある。
Citat
"MMT models trained on 3AM utilize visual information to generate better translation."
"This observation further confirms our hypothesis that MMT models trained on the 3AM dataset can effectively exploit visual information."