Core Concepts
本共有タスクは、14の言語におけるセマンティックテキスト関連性の度合いを予測することを目的としている。参加者には、文のペアの関連性の度合いを順位付けするシステムの提出が求められた。
Abstract
本共有タスクは、セマンティックテキスト関連性(STR)に焦点を当てている。従来の共有タスクは主にセマンティック類似性に重点を置いていたが、本タスクではより広範な関連性の概念を調査している。
データセットは、アフリカ語およびアジア語の14言語から構成されており、各言語のペアの文に関連性スコアが付与されている。参加者は、監督付き、非監督付き、クロスリンガルの3つのトラックで、文ペアの関連性の順位付けを行った。
トラックAの監督付きでは、提供された訓練データを使用してシステムを構築した。トラックBの非監督付きでは、関連性データを一切使用せずにシステムを開発した。トラックCのクロスリンガルでは、ターゲット言語以外の言語のデータを使用した。
各トラックの上位チームは以下の通り:
トラックA: AAdaM、NRK、PEAR
トラックB: SATLab、MasonTigers、HW-TSC
トラックC: AAdaM、UAlberta、silp_nlp
これらのチームは、データ拡張、アンサンブル手法、言語固有の特徴量の活用など、様々なアプローチを試みた。全体として、言語間でパフォーマンスが大きく異なり、単一の手法では全言語に対して良好な結果を得られないことが示された。
Stats
文ペアの関連性スコアは0(完全に無関係)から1(最大限関連)の範囲。
各言語の訓練データ、開発データ、テストデータのサイズは表1の通り。
アノテーターの数は言語によって2-4人。
各言語のスプリット半信頼性(SHR)スコアは0.64-0.96と高い。