最近、ビジョン・トランスフォーマーは、ボクセル3D再構築を含むさまざまなコンピュータビジョンタスクで優れた成績を収めています。しかし、ビジョントランスフォーマーのウィンドウはマルチスケールではなく、ウィンドウ間に接続がないため、ボクセル3D再構築の精度が制限されます。そのため、私たちはシフトされたウィンドウアテンションに基づくボクセル3D再構築ネットワークを提案します。これは、シフトされたウィンドウアテンションを初めてボクセル3D再構築に適用した最初の作業です。ShapeNetでの実験結果は、当社の手法が単一視点再構築でSOTA精度を達成していることを確認しています。
単一視点3D再構築は、オブジェクトの形状を単一視点画像から復元することを含む非常に難しい研究トピックです。現在、深層学習リコンストラクターはRNNベースの方法、CNNベースの方法、およびトランスフォーマーベースの方法など三つの解決策を提供しています。この作業では、我々はVoxel表現で単一視点3D再構築の精度と堅牢性を向上させるためにトランスフォーマーベースの方法に焦点を当てています。
Swin TransformerはCNNとTransformerの両方の利点を統合することで大きな約束を示しています。一方で局所的なアテンショメカニズムにより大きなサイズの画像を処理するCNNの利点があります。他方ではShifted Window Schemeにより長距離依存関係をモデリングするTransformerの利点があります。
私たちはSwin Transformerに基づく3d再構成モデル「R3D-SWIN」を提案します。具体的には、「R3D-SWIN」はtransformerエンコーダーとCNNデコーダーから構成されています。「R3DSWIN」では、「3dretr」というシンプルなCNNデコーダーからインスパイアされました。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Chenhuan Li,... at arxiv.org 03-07-2024
https://arxiv.org/pdf/2312.02725.pdfDeeper Inquiries