Grunnleggende konsepter
人間や動物が行うように、バッチ処理やデータ拡張、シャッフルなしで単一の連続ビデオストリームから学習する新しいフレームワークを提案する。
Sammendrag
本論文では、単一の連続ビデオストリームから学習する新しいフレームワークを提案している。従来のビデオ理解アプローチとは異なり、バッチ処理やデータ拡張、シャッフルなしで学習を行う。
フレームワークの概要は以下の通り:
- ピクセルから予測するタスク(ピクセル、セグメンテーション、深度)を扱う
- ストリーム内での適応と一般化の両方を評価する
- 最適化手法の検討では、モーメンタムが有害であり、RMSPropが有効であることを示した
- 事前学習では、未来予測タスクが有効であることを示した
- これらの知見を組み合わせた"Baby Learning"アプローチは、IIDデータでのバッチサイズ1の標準的な深層学習手法と同等の一般化性能を達成しつつ、ストリーム内での適応性能を向上させることができる
Statistikk
連続フレーム間の勾配の向きの相関が強く、標準的な最適化手法では学習が上手くいかない
重み更新の頻度を下げると一般化性能が向上するが、適応性能が低下する
学習率のスケジューリングでは、一定の学習率が適応性能の向上に有効