MonoTAKDは、単眼カメラ検出器の性能を向上させるために、教師アシストモデルを用いた効率的な知識蒸留手法を提案する。具体的には、カメラベースの教師アシストモデルを用いて視覚的知識を蒸留し、さらにLiDARベースの教師モデルから3D空間情報を残差特徴として蒸留することで、学生モデルの3D認識能力を高めている。
単眼3D物体検出器は小型物体の検出では優れた性能を示すが、大型物体の検出精度が低下する問題がある。本研究では、ダイスロスの優れたノイズロバスト性を活用し、バードビュー分割を用いることで、大型物体の単眼3D検出精度を大幅に向上させることを示した。