Mask4Formerは、LiDARポイントクラウドの時系列シーケンスに対して、セマンティックインスタンスセグメンテーションとトラッキングを単一のモデルで統合的に行う、変換器ベースのアプローチである。
事前学習とエピソード学習の必要性を排除することで、ドメインギャップの問題を軽減し、大幅な時間とリソースの節約を実現する。さらに、クエリ-サポート間の相互作用を学習するQUESTモジュールを導入することで、パフォーマンスを向上させる。
本研究は、3D点群データの効率的な処理のためにGPU上でのスパースコンボリューション演算の最適化に取り組んでいる。特に、CUDA技術を活用し、スパースデータの特性に合わせた高速な演算手法を提案している。
VLMの2Dピクセル表現を3D点群に転移する際、点群の幾何学的構造を活用することで、より高品質な表現を得ることができる。