Conceptos Básicos
動画内の顔のクラスタリングを自己教師学習と適応的なアルゴリズムを用いて解決する。
Resumen
本論文は、動画内の顔のクラスタリングに関する新しい手法を提案している。動画内の顔は、ポーズ、表情、照明、外見の変化が大きいため、一般的な顔識別モデルでは動画コンテンツに適応できない。そこで本手法では、以下の2つのステージから成る:
- 自己教師学習によるモデルのファインチューニング
- 動画内の顔トラックを利用して、一般的な顔識別モデルを自己教師学習でファインチューニングする。
- 同一トラック内の顔の変化を学習し、トラック間の類似性も学習する。
- 適応的なクラスタリングアルゴリズム
- ファインチューニングしたモデルの損失関数をメトリックとして使い、各トラックに適応的なマッチングしきい値を設定する。
- 底上げ型のクラスタリングアルゴリズムを用いて、トラックをクラスタリングする。
さらに、映画の顔クラスタリングに特化したデータセット"MovieFaceCluster"を提案し、従来手法と比較して優れた性能を示している。
Estadísticas
動画内の顔トラックの数は119から917と大きな変動がある。
提案手法は、このような大きな変動にも関わらず、全ての映画で大幅な性能向上を達成している。
Citas
"動画制作コンテンツの急増に伴い、映画やTVシリーズのメインキャストを正確に特定する必要性が高まっている。"
"一般的に事前学習された顔識別モデルは、動画制作ドメインの高ダイナミックレンジのコンテンツや固有のシネマティックスタイルに適応できない。"
"提案手法は、ユーザー定義のパラメータを必要とせず、完全に自動化されたアプローチを提供する。"