核心概念
本研究は、自然言語処理とマシンラーニングの手法を組み合わせて、スペイン法判決を管轄依存の法カテゴリーに自動分類し、その決定過程を自然言語で説明するシステムを提案する。
要約
本研究は、スペイン法判決の自動分類と説明に取り組んでいる。
データ前処理モジュールでは、判決文から不要な語を除去し、語彙を正規化している。
メインモジュールでは、文字n-gram特徴量と単語n-gram特徴量を生成し、各管轄の法カテゴリーに対して個別の分類器を訓練している。分類器にはランダムフォレストを採用し、より単純なデシジョンツリーをベースラインとしている。
説明モジュールでは、分類器の決定木構造を解析し、判決分類に寄与した特徴語を抽出している。これらの特徴語を自然言語で説明するためのテンプレートを用いて、判決の分類理由を出力している。さらに、法律専門家による検証を経て、重要な特徴語を含む「専門家ループ」の辞書を構築している。
実験では、96,163件のスペイン法判決データセットを用いて評価を行っている。分類精度は90%を超え、自然言語による説明も法律専門家から高い評価を得ている。本研究は、法分野における自然言語処理とマシンラーニングの融合、および分類結果の説明可能性の向上に貢献している。
統計
判決文の平均長は3,103単語/19,217文字
判決データセットには42の法カテゴリーが含まれている
判決の59.78%は単一のカテゴリーラベル、32.68%は1つの代替ラベル、7.54%は2つの代替ラベルを持つ
引用
"本研究は、自然言語処理とマシンラーニングの手法を組み合わせて、スペイン法判決を管轄依存の法カテゴリーに自動分類し、その決定過程を自然言語で説明するシステムを提案する。"
"実験では、96,163件のスペイン法判決データセットを用いて評価を行っている。分類精度は90%を超え、自然言語による説明も法律専門家から高い評価を得ている。"