本論文は、CityLLaVAと呼ばれる、都市環境における視覚言語モデル(VLM)のための効率的なファインチューニングパイプラインを提案する。このパイプラインは、以下の3つの主要モジュールで構成される:
提案手法は、WTSデータセットで最高スコアを達成し、都市環境における視覚言語理解タスクの新しい基準を設定した。実験結果は、視覚プロンプトエンジニアリングとテキストプロンプトエンジニアリングが性能向上に寄与し、ブロック拡張ファインチューニングが効率的であることを示している。さらに、順次質問ベースの予測増強が出力の精度を向上させることが明らかになった。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zhizhao Duan... at arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.03194.pdfDeeper Inquiries