高解像度衛星画像と3D都市モデリングを用いることで、従来の手法よりも正確な人口推定が可能になる。
カメラベースの3次元セマンティックシーン補完において、従来の時間的情報を単純に積み重ねる手法は、視点の違いによる位置変化を考慮していないため、予測精度が低下する。本論文では、この問題に対処するため、階層的時間コンテキスト学習(HTCL)を提案する。HTCLは、フレーム間のコンテキストパターンの類似性を測定し、類似性に基づいて特徴サンプリング位置を動的に絞り込むことで、時間的なコンテキスト情報を効果的に活用し、高精度な3次元セマンティックシーン補完を実現する。
AI生成画像の検出における課題は、これまで見たことのない新しい生成モデルによって作成された画像を特定することである。本稿では、訓練データの多様性の乏しさがこの問題の主な障害であると主張し、従来の研究よりもはるかに大規模で多様な新しいデータセットを提案する。
大規模視覚言語モデル (LVLM) は目覚ましい進歩を遂げている一方で、画像の内容と矛盾するテキストを出力する「ハルシネーション」の問題を抱えている。本論文では、オブジェクトの存在と属性に関するハルシネーションを詳細に評価するベンチマーク「H-POPE」を提案し、LVLM がオブジェクトの存在だけでなく、その属性についてもハルシネーションを起こしやすいことを示した。
本論文では、UAVベースの非整列RGB-T画像における顕著物体検出のための、軽量かつ高精度なモデル「AlignSal」を提案する。
本稿では、可視光画像と熱画像の両方を活用した新しい深度推定フレームワークを提案し、ステレオ深度推定と劣化マスキングを通じて、さまざまな照明条件下で堅牢かつ正確な深度マップを生成します。
テキストから画像への生成モデルの忠実性を向上させるために、外部知識ベースと大規模言語モデルの知識を文脈に応じて動的に活用する新しいフレームワーク、CKPT (Contextual Knowledge Pursuit) を提案する。
画像の抽象的で階層的な意味表現を学習するために、結合埋め込みアーキテクチャ(JEA)を積み重ねたS-JEA(Stacked Joint Embedding Architectures)を提案する。
Transformer ベースのセマンティックセグメンテーションにおけるデコーダの設計は、主成分分析(PCA)や符号化レートの概念と密接に関係しており、これらの圧縮原理に基づいて、より解釈可能で高性能なデコーダを設計できる。
本稿では、動的画像融合が静的画像融合よりも優れていることを理論的に証明し、融合画像を単一ソースコンポーネントに分解することで、画像融合の一般化誤差の上限を初めて証明する。そして、その理論に基づき、新たなテスト時動的画像融合パラダイムを提案する。