本研究は、法的ドメインにおける小規模データセットの課題に取り組むため、転移学習とデータ拡張手法を組み合わせた手法を提案している。
まず、一般的な単語埋め込みモデルであるword2vecと、事前学習済みのBERTモデルを用いて、法的ドメインに特化した特徴表現を作成した。次に、これらの特徴表現を用いて、ロジスティック回帰やサポートベクターマシンなどの教師あり分類器を訓練した。さらに、データ拡張手法であるバックトランスレーションを適用し、分類精度の向上を図った。
最終的に、教師あり学習と半教師あり学習を組み合わせたUnsupervised Data Augmentation (UDA)手法を適用したところ、80.7%の高精度な分類結果を得ることができた。これは、人手による分類の誤り率46.7%と比べて大幅な改善である。
本研究の成果は、法的ドメインにおける小規模データ問題に対する有効な解決策を示すものであり、実際の法的文書の自動分類に活用できる。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Mariana Yuka... klo arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.05972.pdfSyvällisempiä Kysymyksiä