本研究では、利用規約(ToS)文書の自動要約と分類を行うために、機械学習モデルを開発した。ToS;DR(Terms of Service; Didn't Read)から収集したデータセットを使用し、ケース分類とドキュメントタイプ分類の2つのタスクに取り組んだ。
ケース分類タスクでは、246のラベルを持つマルチクラス分類問題に取り組み、RoBERTaモデルが0.74のF1スコアで最良の性能を示した。ドキュメントタイプ分類タスクでは、ToS、プライバシーポリシー、Cookieポリシー、データポリシー、その他のポリシーの5つのラベルを使用し、RoBERTaが0.80のF1スコアで最良の結果を得た。
次に、最良のモデルを使ってプライバシーポリシーと利用規約の重複を分析した。ドキュメントタイプ分類の正解率から、これらのドキュメントタイプ間に一定の概念的重複があることが示唆された。さらに、ケース分類器の出力を分析することで、特定のケースが両ドキュメントタイプに現れることを確認した。これらの重複は、GDPR遵守の必要性を強調するものである。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Shikha Sonej... at arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.13087.pdfDeeper Inquiries