核心概念
黒箱分類器の出力を校正し、基準データセットと目標データセットの間の安定性を仮定することで、オンラインコメントの毒性度合いを正確に推定することができる。
摘要
本論文では、黒箱分類器を用いて、オンラインコメントの毒性度合いを推定する手法を提案している。
まず、校正フェーズでは、基準データセットの一部にラベルを付与し、分類器出力と真のラベルの関係を学習する。次に、外挿フェーズでは、基準データセットと目標データセットの間の何らかの安定性を仮定し、目標データセットの毒性度合いを推定する。
具体的には、以下の手順を踏む:
- 基準データセットの一部からサンプルを抽出し、クラウドソーシングでラベル付けを行う。
- サンプルデータを用いて、分類器出力と真のラベルの関係を表す校正曲線を推定する。
- 校正曲線と基準データセットの分類器出力密度関数から、基準データセットの真のラベル分布を推定する。
- 目標データセットの分類器出力密度関数と、基準データセットの校正曲線または条件付き密度関数の安定性を仮定して、目標データセットの真のラベル分布を推定する。
- 推定された真のラベル分布から、毒性コメントの割合を算出する。
本手法は、分類器の予測精度が高いほど、安定性の仮定違反に対してロバストな推定結果が得られることを示している。
また、実際のReddit、Twitter/X、YouTubeのニュースコメントデータに適用し、プラットフォーム間の毒性コメントの割合の違いを明らかにしている。
統計資料
基準データセットの毒性コメントの割合は20%である。
目標データセットの毒性コメントの割合は60%である。