本論文は、2D画像理解タスクにおけるグラフニューラルネットワーク(GNN)の使用に関する包括的な調査を提供する。まず、2D画像理解タスクの分類と主要なデータセットを概説する。次に、GNNの基本的な概念と、2D画像理解タスクで使用される一般的なグラフタイプについて説明する。主要な部分では、画像キャプショニング、視覚質問応答(VQA)、画像検索の各タスクにおけるGNNベースのアプローチを詳しく紹介する。最後に、今後の発展の可能性について議論する。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Henry Senior... às arxiv.org 04-15-2024
https://arxiv.org/pdf/2303.03761.pdfPerguntas Mais Profundas