Core Concepts
自己教師付き学習を活用したモノキュラー深度推定において、新しいデータセットSlowTVとCribsTVがゼロショット汎化能力を向上させる。
Abstract
この論文では、自己教師付き学習を使用してモノキュラー深度推定のための新しいデータセットSlowTVとCribsTVが提案されました。これらのデータセットはYouTubeから収集され、多様な環境を提供し、既存のSS-MDEアプローチを大幅に上回る性能を示すことができます。さらに、カメラ内部パラメータの学習や高度な拡張戦略の導入など、追加の貢献も組み合わせて性能向上が実現されました。
Stats
SlowTVとCribsTVは合計200万枚のトレーニングフレームを含む大規模なデータセットです。
提案されたアプローチは、他のSS-MDEアプローチよりも優れた性能を発揮します。
ゼロショット汎化能力が大幅に向上しました。
Quotes
"Self-supervised learning is the key to unlocking generic computer vision systems."
"We leverage these datasets to tackle the challenging task of zero-shot generalization, outperforming every existing SS-MDE approach and even some state-of-the-art supervised methods."
"Our models significantly outperform all existing SS-MDE approaches and can even match or outperform State-of-the-Art (SotA) supervised techniques."