核心概念
ユーザー生成コンテンツに対してロバストなセンテンス埋め込みモデルを提案し、標準的なテキストとユーザー生成コンテンツの表現を近づけることで、ユーザー生成コンテンツに対する性能を大幅に向上させる。
要約
本研究では、ユーザー生成コンテンツ(UGC)に対してロバストなセンテンス埋め込みモデルを提案している。
まず、UGCに対するLASERモデルの脆弱性を指摘する。LASERは標準的なテキストに基づいて学習されているため、UGCの表現が標準的なテキストの表現と大きく異なってしまう問題がある。
そこで、教師-生徒アプローチを用いて、生徒モデルであるRoLASERを学習する。RoLASERは、標準的なテキストとそのUGC版の表現を近づけるように学習される。これにより、UGCに対するロバスト性が大幅に向上する。
さらに、文字レベルのモデルであるc-RoLASERも提案しているが、標準的なテキストの表現をLASERのものに近づけるのが難しく、RoLASERに劣る結果となった。
人工的に生成したUGCデータを用いた詳細な分析では、RoLASERがLASERに比べて最大11倍優れた性能を示すことが分かった。特に、文字レベルの変形が大きい現象に対して顕著な改善が見られた。
最後に、ダウンストリームタスクでの評価でも、RoLASERがUGCデータに対してLASERを上回る性能を示すことを確認した。
統計
標準的なテキストとUGCの表現の平均コサイン距離は、RoLASERが0.00-0.02、c-RoLASERが0.00-0.01と非常に小さい。
LASERのxSIM++スコアは、UGCタイプによって5.83-68.60と大きな変動がある。一方、RoLASERは0.40-7.09とばらつきが小さく、最大で11倍の改善が見られる。
引用
"NLP models have been known to perform poorly on user-generated content (UGC), mainly because it presents a lot of lexical variations and deviates from the standard texts on which most of these models were trained."
"We show that with training only on standard and synthetic UGC-like data, RoLASER significantly improves LASER's robustness to both natural and artificial UGC data by achieving up to 2× and 11× better scores."