Основные понятия
ドメイン固有の機械翻訳において、複雑な名前付きエンティティを捉える新しい無監督データ選択方法が提案されました。
Аннотация
最近の研究では、効果的なデータは「適切に難しいデータ」を選択することで見つけられる可能性があると示唆されています。この手法は、特定の量のデータが限られている場合に特に重要です。しかし、無監督データ選択基準を確立することは依然として困難であり、「適切な難易度」はトレーニングされるデータドメインによって異なる可能性があります。著者たちは、「Capturing Perplexing Named Entities」という新しい無監督データ選択方法を導入しました。この方法は、翻訳された名前付きエンティティ内の最大推論エントロピーを採用しています。
Статистика
40,000以上の言語組み合わせでトレーニングされたモデルが特定ドメインの文を正確に翻訳する際に苦労することがある。
ネームエンティティは、ドメイン固有データ内で最も複雑な部分であり、高い信頼度で予測すべきです。
「Capturing Perplexing Named Entities」は、他の既存手法と比較して堅牢な無監督データ選択ガイダンスとして機能します。
Цитаты
"Named entities in domain-specific data are considered the most complex portion of the data and should be predicted with high confidence."
"Our method served as a robust guidance for unsupervised data selection, in contrast to existing methods."