本研究では、ユーザー生成コンテンツ(UGC)に対してロバストなセンテンス埋め込みモデルを提案している。
まず、UGCに対するLASERモデルの脆弱性を指摘する。LASERは標準的なテキストに基づいて学習されているため、UGCの表現が標準的なテキストの表現と大きく異なってしまう問題がある。
そこで、教師-生徒アプローチを用いて、生徒モデルであるRoLASERを学習する。RoLASERは、標準的なテキストとそのUGC版の表現を近づけるように学習される。これにより、UGCに対するロバスト性が大幅に向上する。
さらに、文字レベルのモデルであるc-RoLASERも提案しているが、標準的なテキストの表現をLASERのものに近づけるのが難しく、RoLASERに劣る結果となった。
人工的に生成したUGCデータを用いた詳細な分析では、RoLASERがLASERに比べて最大11倍優れた性能を示すことが分かった。特に、文字レベルの変形が大きい現象に対して顕著な改善が見られた。
最後に、ダウンストリームタスクでの評価でも、RoLASERがUGCデータに対してLASERを上回る性能を示すことを確認した。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Lydi... klokken arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17220.pdfDypere Spørsmål