Core Concepts
CEとZMSに基づくアプローチを比較して、平均較正を検証する。
Abstract
最近の機械学習不確実性定量化文献からのデータセットを用いて、CEとZMSベースのアプローチを比較し、平均較正を検証。RCEは不確実性分布の上側テールに敏感であり、外れ値に影響されやすいことが示唆される。一方、ZMSは信頼性の問題がなく、平均較正テストにおいて最も信頼性が高いアプローチであることが明らかになった。これは条件付き較正の検証にも影響を与える。UCEやENCE統計量はMVとMSE統計量を比較するが、この感度問題に影響を受けやすいため、バイナリ化されたZMS統計量で条件付き較正を評価する方が良いかもしれない。
Stats
Ei, uEi M i=1 to be tested for average calibration.
Var(E) = ⟨VarD(E|σ)⟩G + VarG (⟨E|σ⟩D)
RCE = RMV − RMSE RMV
Quotes
"Average calibration statistics based on the comparison of MSE =< E2 > to MV =< u2 E > should not be relied upon for the kind of datasets found in ML-UQ regression problems."
"The ZMS statistic, which deals globally with the better-behaved distributions of scaled errors (Z = E/uE) has no reliability issue and should therefore be the statistic of choice for average calibration testing."