核心概念
法的専門家は長い法的判断から重要な洞察を得る必要があるが、従来の要約ツールは一般的な要約しか提供できず、ユーザーの多様な情報ニーズに応えられていない。本研究では、欧州人権裁判所の判決を対象とした側面に基づいた要約データセットLexAbSummを開発し、側面に基づいた要約モデルの性能を評価した。
要約
本研究では、法的専門家が長い法的判断から重要な洞察を得る必要性に着目し、側面に基づいた要約データセットLexAbSummを開発した。LexAbSummは、欧州人権裁判所の判決を対象としており、事実と法の側面に分けて要約が提供されている。
データセットの特徴分析では以下の点が明らかになった:
事実と法の部分では入力と出力の長さ、圧縮率、n-gramの特性が異なる
法の部分の方が事実の部分よりも抽出性が低く、要約の生成が難しい
次に、長文入力に対応した抽象的要約モデルを評価した。結果は以下の通り:
従来の抽出型要約手法よりも抽象的要約モデルの方が優れている
長文入力に対応したモデルの中ではLongT5が最も良い性能を示した
SLED、Unlimiformerなどの短文モデルを長文入力に適用する手法が有効
さらに分析では以下の点が明らかになった:
新しい側面に対する一般化性が課題
同じ判決文でも側面が異なると要約が変わるという側面への感度が課題
今後の課題として、側面への感度を高めつつ、新しい側面にも対応できる要約モデルの開発が重要である。
統計
法的判断の事実部分の平均トークン数は3929.77、要約の平均トークン数は81.19
法的判断の法の部分の平均トークン数は10427.38、要約の平均トークン数は169.91
事実部分の圧縮率は59.75、法の部分の圧縮率は85.02