Core Concepts
既存の英語ドキュメントレベル関係抽出データセットを活用し、日本語ドキュメントレベル関係抽出のためのデータセットを構築する。自動的な翻訳ベースの手法では課題があるため、機械推薦を人手で編集するアプローチを提案する。
Abstract
本研究は、ドキュメントレベルの関係抽出(DocRE)タスクにおいて、英語リソースを活用して非英語言語(日本語)のリソースを構築する方法を探る。
まず、英語のDocREデータセットであるRe-DocREDをGoogle翻訳で日本語に翻訳し、Re-DocREDjaというデータセットを自動的に構築する。しかし、このデータセットを使って訓練したモデルは日本語テキストに適用すると低いリコールを示す。これは、英語から翻訳したテキストと日本語ネイティブのテキストの違いに起因すると分析する。
そのため、人手アノテーションを行う際に、Re-DocREDjaを活用する半自動的なアプローチを提案する。具体的には、Re-DocREDjaで訓練したモデルの予測結果を人手で編集するという手法を採用する。この手法により、従来の知識ベースクエリーに基づく手法と比べて、人手編集工数を約50%削減できることを示す。
最終的に構築したデータセットをJacREDと呼び、その統計情報や特徴を分析する。また、JacREDを用いて既存のDocREモデルの性能を評価し、日本語DocREの課題を明らかにする。さらに、英語とJacREDの間のクロスリンガル性能も評価し、ドキュメントレベルの言語間転移の難しさを示す。
Stats
日本語ドキュメントの平均トークン数は260.1
1ドキュメントあたりの平均関係数は21.12
1関係あたりの平均証拠文数は1.67
Quotes
"ドキュメントレベルの関係抽出(DocRE)は、ドキュメント内のすべての意味的関係を抽出するタスクである。"
"英語のDocREに関する研究は行われてきたが、英語以外の言語のDocREに対する注目は限られている。"
"我々の提案では、アノテーターは機械推薦を編集するだけで良く、これにより人手編集工数を約50%削減できる。"