本論文は、分類評価指標の詳細な分析を行い、指標選択に関する課題と指針を提示している。
まず、バイアスと頻度という2つの基本概念を定義し、一般的な評価指標(正確率、再現率、F1スコア、Kappa、MCC等)について、5つの指標特性(単調性、クラス感度、クラス分解可能性、頻度不変性、偶然補正)に基づいて分析を行った。
分析の結果、各指標にはそれぞれ長所短所があることが明らかになった。例えば、マクロ再現率は全ての特性を満たす一方で、マクロ精度は頻度不変性を持たない。また、KappaやMCCは単調性を持たず、解釈が難しい面がある。
さらに、頻度補正を行うことで、多くの指標がマクロ再現率と等価になることが示された。このように、指標選択には慎重な検討が必要であり、単一の指標ではなく複数の指標を組み合わせて評価することが重要であると指摘している。
最後に、自然言語処理の共同課題における指標選択の実態を調査し、多くの場合で指標選択の根拠が不明確であることを明らかにした。より透明性の高い指標選択と評価実践を推奨している。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Juri Opitz pada arxiv.org 04-29-2024
https://arxiv.org/pdf/2404.16958.pdfPertanyaan yang Lebih Dalam