核心概念
特別上訴の内容を要約し、既存の反復テーマとの類似度を評価することで、特別上訴に最も関連する反復テーマを提案する。
摘要
本研究では、ブラジルの連邦司法制度における特別上訴文書と反復テーマ文書の2つのコーパスを収集しました。特別上訴文書は平均4,672単語で構成されており、反復テーマ文書は平均43単語で構成されています。
提案手法GLAREは以下の2つのステップから成ります:
- Guided LexRankアルゴリズムを用いて特別上訴の要約を生成する。
- 生成された要約とテーマ文書の類似度をBM25アルゴリズムで評価し、最も関連性の高いテーマを提案する。
実験の結果、GLAREは既存のElasticsearchベースラインよりも優れた性能を示しました。また、教師あり学習モデルと比較しても、特に訓練データに代表されていないテーマに対して高い精度を達成しました。これは、教師なし学習アプローチであるGLAREが、事前に分類されていない特別上訴を適切なテーマに分類できることを示しています。
統計資料
特別上訴の平均単語数は4,672.48単語
反復テーマの平均単語数は43.3単語
特別上訴コーパスには7,967件の文書が含まれる
引述
"特別上訴の分類は複雑な手順であり、特別上訴の内容を包括的に分析し、提示された事実と反復上訴システムのテーマとの間の類似性を比較することが主な課題である。"
"反復テーマの収集は、現行法の変更や新たな社会的要求により定期的に増加する。このアスペクトは、教師なし学習アプローチを採用することに直接影響した。"