핵심 개념
与えられたデフォルト分布Pと検査データxMが、Pによって生成された可能性を判断する。最大エントロピー分布を用いた統計量を組み合わせたコーディングアプローチにより、この問題に取り組む。
초록
本論文では、デフォルト分布Pが与えられた場合に、検査データxMがPによって生成された可能性を判断する問題を扱っている。
まず、統計量Tに対応する最大エントロピー分布PTを考える。PTは、統計量Tの期待値がtとなる分布の中で、最小の記述長を持つ分布である。複数の統計量Tiを組み合わせて、xMの記述長を最小化することで、xMがPによって生成された可能性を判断する。
具体的には、各統計量Tiに対応する最大エントロピー分布PTiを用いて、xMを符号化する。符号長の合計が、デフォルト分布Pによる符号長よりも短ければ、xMはPによって生成された可能性が低いと判断する。
理論的には、統計量の複雑性が高いほど、小さな分布の違いを検出できるが、検出性能の観点からは、できるだけ単純な統計量を使うことが望ましい。そのため、本論文では、複雑な統計量と単純な統計量を組み合わせる手法を提案している。
また、実世界のデータでは、デフォルト分布Pが未知の場合が多い。そこで、データをガウス分布に変換する生成ニューラルネットワークを用いて、Pを推定する手法も提案している。
実験では、提案手法が既存手法に比べて優れた異常検出性能を示すことを確認している。
통계
検査データxMの尤度は、-log P(xM)で表される。
統計量Tiに対応する最大エントロピー分布PTiによる符号長は、-log PTi(xM)で表される。
複数の統計量Tiを組み合わせた符号長の合計は、Σ(-log PTi(xM) + L(Ti) + log*i)で表される。
인용구
"Given a default distribution P and a set of test data xM = {x1, x2, . . . , xM} this paper seeks to answer the question if it was likely that xM was generated by P."
"We consider a set of statistics T1(xM), T2(xM), . . .. To each statistic we associate its maximum entropy distribution and with this a universal source coder."
"The maximum entropy distributions are subsequently combined to give a total codelength, which is compared with −log P(xM)."