最近の研究では、効果的なデータは「適切に難しいデータ」を選択することで見つけられる可能性があると示唆されています。この手法は、特定の量のデータが限られている場合に特に重要です。しかし、無監督データ選択基準を確立することは依然として困難であり、「適切な難易度」はトレーニングされるデータドメインによって異なる可能性があります。著者たちは、「Capturing Perplexing Named Entities」という新しい無監督データ選択方法を導入しました。この方法は、翻訳された名前付きエンティティ内の最大推論エントロピーを採用しています。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Seunghyun Ji... at arxiv.org 03-01-2024
https://arxiv.org/pdf/2402.19267.pdfDeeper Inquiries