핵심 개념
単眼深度推定の性能を維持しつつ、効率的なCNNモデルを開発するために、クロスアーキテクチャナレッジディスティレーションを提案する。
초록
本研究では、単眼深度推定(MDE)の性能を維持しつつ、効率的なCNNモデルを開発することを目的としている。
まず、単純なCNNフレームワークを構築し、局所-大域畳み込み(LG-Conv)モジュールを導入することで、CNNのグローバル表現能力を強化している。
次に、トランスフォーマーベースの高性能モデルの知識を効果的にCNNモデルに蒸留するため、ゴーストデコーダを用いたクロスアーキテクチャナレッジディスティレーション手法を提案している。これにより、アーキテクチャ固有の情報を抑制し、タスク関連の情報を適応的に蒸留することができる。
さらに、注意機構を導入したナレッジディスティレーションロスを提案し、教師モデルの重要な特徴を効果的に学習させている。
実験の結果、提案手法は、KITTI及びNYU Depth V2データセットにおいて、高い性能と効率性を両立することができることが示された。
통계
提案手法DisDepthのEfficientNet-B0モデルは、FLOPsが35.7Bと効率的であり、RMSEは2.545と良好な性能を示している。
DisDepthのResNet-50モデルは、FLOPsが499.7Bと効率的であり、RMSEは2.168と高い性能を達成している。
인용구
"単眼深度推定の性能を大幅に向上させるためには、トランスフォーマーモデルの統合が不可欠であるが、トランスフォーマーモデルは計算コストが高く、軽量モデルでの有効性が限定的である。"
"提案手法DisDepthは、トランスフォーマーティーチャーの知識をCNNスチューデントに効果的に蒸留することで、高性能かつ効率的な単眼深度推定モデルを実現している。"