Core Concepts
ワンホットエンコーディングされたカテゴリカル変数をナイーブベイズ分類器で扱うと、正しいカテゴリカルモデルではなくベルヌーイ積モデルとなり、分類確率の計算が正しくない。この2つのモデルの違いを数学的および実験的に分析した。
Abstract
本論文では、カテゴリカル変数xをナイーブベイズ分類器で使用する際に、xをK個のビットでワンホットエンコーディングすると、正しいカテゴリカルモデルではなくベルヌーイ積モデルとなってしまうことを示した。
数学的な分析では、ワンホットエンコーディングによって導入される追加の因子Q-jが、クラス間の尤度比を過度に強調してしまうことを明らかにした。具体的には、Q-jは変数θjの単調増加関数であり、その上限と下限を導出した。
実験では、クラス数C=4、カテゴリカル変数の状態数K=3、6、10の場合を検討した。ベルヌーイ積モデルの最大事後確率は、カテゴリカルモデルのそれよりも大きくなる傾向にあった。また、最大事後確率クラスの一致率は、Kが大きくなるほど高くなった。
以上より、ワンホットエンコーディングされたカテゴリカル変数をナイーブベイズ分類器で扱う際は注意が必要であり、正しいカテゴリカルモデルを使用することが重要であることが示された。
Stats
最大事後確率がベルヌーイ積モデルの方が高くなる割合は、K=3で82.0%、K=6で72.3%、K=10で74.7%(α=1の場合)
最大事後確率クラスが一致しない割合は、K=3で12.33%、K=6で5.67%、K=10で2.50%(α=1の場合)
Quotes
"ワンホットエンコーディングされたカテゴリカル変数をナイーブベイズ分類器で扱うと、正しいカテゴリカルモデルではなくベルヌーイ積モデルとなり、分類確率の計算が正しくない。"
"Q-jは変数θjの単調増加関数であり、その上限と下限を導出した。"
"ベルヌーイ積モデルの最大事後確率は、カテゴリカルモデルのそれよりも大きくなる傾向にあった。"