Core Concepts
ドメイン情報をエンコーディングすることで、リレーション分類の性能を向上させることができる。特に、ドメイン間で解釈が異なる関係ラベルの性能が大きく改善される。
Abstract
本研究では、リレーション分類(RC)タスクにおいて、ドメイン情報をエンコーディングする手法を提案している。RCタスクは、ドメイン依存性が高いため、複数ドメインのデータを組み合わせて学習することが重要となる。
提案手法では、以下の3つの方法でドメイン情報をエンコーディングしている:
データセットエンベディング: 各ドメインに対応したエンベディングを学習し、入力に付加する。
ドメインマーカー: 入力文の先頭にドメイン情報を表すトークンを付加する。
エンティティタイプ情報: 細粒度および粗粒度のエンティティタイプ情報を入力に追加する。
実験の結果、ドメインマーカーを付加する手法が最も良い性能を示した。これは、ドメイン間で解釈が異なる関係ラベルの性能が大きく改善されたためである。一方、データセットエンベディングやエンティティタイプ情報を用いる手法では、パフォーマンスの向上は限定的だった。
本研究の分析から、ドメイン間で解釈が近い関係ラベルはドメイン情報の恩恵を受けにくいが、ドメイン依存的な関係ラベルは大きな性能向上が見られることが分かった。
Stats
ドメインマーカーを付加した手法では、関係ラベルの"related-to"が20.99 F1から24.21 F1に、"named"が68.25 F1から71.30 F1に、"part-of"が32.79 F1から35.54 F1に改善された。
Quotes
"特に、ドメイン間で解釈が変化する関係ラベルが、ドメイン情報のエンコーディングから最も恩恵を受けた。"
"一方、ドメイン間で解釈が安定している関係ラベルは、ドメイン情報のエンコーディングによる性能向上は限定的だった。"