Core Concepts
オンラインマシンラーニングは、従来のマシンラーニングの枠組みでは不完全であり、システム理論的な視点が必要である。オンラインマシンラーニングシステムは、入出力システムとして定義され、システム構造とシステム挙動の2つの側面から分析される。概念ドリフトはオンラインマシンラーニングシステムの重要な挙動特性の1つである。
Abstract
本論文では、オンラインマシンラーニング(OML)をシステム理論的な観点から定式化し、分析する。
まず、OMLの従来のマシンラーニング(ML)の定式化では不十分であることを指摘する。OMLは、入出力システムとして捉えることができ、システム構造とシステム挙動の2つの側面から分析される必要がある。
システム構造については、時間経過に伴う入出力空間の変化を同相写像を用いて捉える方法を示す。同相写像を用いることで、入出力空間の変化に対応したシステム設計が可能となる。
システム挙動については、特に概念ドリフトに着目する。概念ドリフトは、入力分布の変化(仮想ドリフト)と出力分布の変化(実ドリフト)に分類される。これらの概念ドリフトの特性を理解し、OMLシステムの設計に活かすことが重要である。
最後に、ヘルスケアの不正検出を事例として、本提案のシステム理論的アプローチの有用性を示す。
Stats
ヘルスケア不正検出の年間被害額は123-410億ドルと推定されている。