Conceitos essenciais
大規模かつ不均衡なデータセットに対して、効率的にアクティブラーニングを行う手法AnchorALを提案する。AnchorALは、ラベル付きデータから選択した代表的な事例(アンカー)を用いて、効率的にサブプールを構築し、アクティブラーニング戦略を適用することで、計算コストを抑えつつ、少数クラスの発見と学習性能の向上を実現する。
Resumo
本論文では、大規模かつ不均衡なデータセットに対するアクティブラーニングの課題に取り組む。
標準的なプール型アクティブラーニングは、大規模なプールに対する計算コストが高く、また、初期の決定境界に過剰に適合してしまい、少数クラスの発見に失敗するという問題がある。
そこで本論文では、AnchorALと呼ばれる新しい手法を提案する。AnchorALは、ラベル付きデータから選択したアンカーを用いて、効率的にサブプールを構築する。具体的には、各クラスから代表的な事例(アンカー)を選択し、それらに最も近い未ラベルのインスタンスをサブプールとして抽出する。
この方法により、固定サイズのサブプールを使ってアクティブラーニングを行うことができ、計算コストを大幅に削減できる。また、アンカーの選択方法によって、少数クラスの発見と学習性能の向上を実現する。
実験の結果、AnchorALは、計算時間を大幅に短縮しつつ、より高い性能を達成し、少数クラスのインスタンスを多く発見できることが示された。
Estatísticas
大規模なプールを扱う際の計算コストが大幅に削減された。
少数クラスのインスタンスを多く発見できるようになった。
学習モデルの性能が向上した。