Konsep Inti
本論文は、K-means クラスタリングと事前定義クラスタリング(PDC)の2つの手法を用いて、プライバシーポリシー文書の重要な文を抽出する要約モデルを提案する。
Abstrak
本論文は、プライバシーポリシー(PP)文書の要約に関する2つのモデルを提案している。1つはK-meansクラスタリングに基づくモデル、もう1つは事前定義クラスタ(PDC)に基づくモデルである。
K-meansモデルは、10種類の一般的なクラスタリングアルゴリズムの評価の結果、最も効果的であると判断された。PDCモデルは、EUのGDPR規則に基づいて定義された14のトピックに対応する文を抽出する。
PDCモデルはK-meansモデルよりも、SSDとROUGEの2つの評価指標で優れた結果を示した(それぞれ27%と24%の差)。これは、タスク固有の微調整が教師なし機械学習モデルの有効性を示唆している。
本論文で実装された要約メカニズムは、PPに含まれるべき重要な文を効率的に抽出する方法を示している。さらに、これらのモデルをGDPR(または他のデータプライバシー法)の遵守を確認するアプリケーションに発展させることができる。
Statistik
約1.88億のウェブサイトがあり、それぞれにプライバシーポリシー文書が必要とされる
ユーザーが全てのプライバシーポリシー文書を読むのに必要な総経済的価値は約7.81兆ドル