本論文は、SemEval-2024のタスク1である意味的テキスト関連性(STR)の評価に取り組んでいる。STRは単なる語彙の重複を超えて、言語的要素や主題、感情、視点などの非言語的要因を考慮する。
研究では、英語、マラーティー語、ヒンディー語、スペイン語のデータセットを使用し、3つのトラック(教師あり学習、教師なし学習、クロス言語学習)で検討を行った。
教師あり学習では、言語固有のセンテンス変換モデルが優れた性能を示した。教師なし学習では、大規模コーパスを使用したモデルが高い相関係数を達成した。クロス言語学習では、翻訳を活用したアプローチが有効であることが示された。
本研究は、多言語STRの可能性を示すとともに、低資源言語への適用を目指す今後の研究の礎となることが期待される。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問