Core Concepts
法律専門家が長い法律判決から直接関連する段落を特定するのは困難な課題である。本研究では、欧州人権裁判所の判決から関連段落を効率的に抽出するための手法を提案する。
Abstract
本研究は、法律判決からクエリに関連する段落を抽出する課題に取り組んでいる。
欧州人権裁判所(ECtHR)の判決文書とケースローガイドを活用して、高品質なデータセットを構築した。ケースローガイドのセクションタイトルをクエリとし、各セクションに紐づく判決文の該当段落をラベルとして付与した。
様々な検索モデル(BM25、bi-encoder、cross-encoder)の性能を評価した。ゼロショット評価では、法的ドメイン事前学習モデルであるLegalBERTが一般モデルに劣る結果となった。
事前学習モデルを fine-tuning することで大幅な性能向上が見られたが、未知のクエリや未知の法分野に対する一般化性能には課題が残った。
パラメータ効率的な fine-tuning 手法(Adapter、prefix-tuning、LoRA)を検討し、設定によっては完全 fine-tuning と同等の性能が得られることを示した。
Stats
法律判決の段落数は21から942の範囲で平均102.78段落である。
各クエリ-判決ペアにおける関連段落の割合は0.10%から15%の範囲で平均1.95%である。
クエリの平均トークン数は36、段落の平均トークン数は135である。