ビデオ大規模言語モデル(VLLM)の推論効率を高めるために、トークン圧縮手法DyCokeを提案する。DyCokeは、訓練不要なプラグアンドプレイ方式で、時間的冗長性を削減するトークンマージと、空間的冗長性を動的に削減するKVキャッシュプルーニングの2段階で構成され、高速化とメモリ削減を実現しながらも、従来手法を超える性能を実現する。
本論文では、大きなトポロジー変化を伴う動的シーンを2D画像から再構成するための新しい手法であるN4DEを提案する。これは、明示的なフローの下でのニューラル陰関数進化のためのレベルセット理論に基づいており、複雑な変形を伴うシーンのジオメトリと外観の両方を正確にキャプチャする。
本稿では、テキスト、画像、音声を含むあらゆるモダリティから3Dオブジェクトを生成できる、クロスモーダル事前整列技術を用いた統一フレームワーク「XBind」を提案する。
リモートセンシング画像とテキスト検索の精度向上のため、グローバル・ローカル情報に基づく事前整列手法と、類似度行列の再重み付け、損失関数の最適化などを組み合わせた新しい手法を提案する。
プライバシー保護ビデオ異常検出(P2VAD)は、個人を特定できる情報を保護しながら、監視ビデオにおける異常なイベントを検出するための重要な研究分野として台頭しています。
ハイパースペクトル画像変化検出におけるTransformerベースの手法の性能を向上させるため、グローバルおよびローカルアテンションモジュール(GLAM)とクロスゲートフィードフォワードネットワーク(CGFN)を組み込んだ、グローバルおよびローカルアテンションベースのTransformer(GLAFormer)を提案する。
拡散モデルベースの既存の画像データ拡張手法は、生成画像の忠実性と多様性の両方を十分に考慮できていないため、分類モデルの汎化性能向上に限界がある。本論文では、忠実性と多様性の両方を考慮した新規手法Diff-IIを提案する。
CosmoCLIPは、大規模ビジョン言語モデル(VLM)であるCLIPを、最適化された天文画像データセットSpaceNetとBLIPによるキャプション生成を用いてファインチューニングすることで、天文画像のゼロショット分類と画像テキスト検索タスクにおいて優れた性能を実現する。
ビジョントランスフォーマー(ViT)の計算コストを削減するため、トークンの意味的関連性に基づいてトークンを効率的にクラスタリングする新しい手法「セマンティック均等クラスタリング(SEC)」を提案する。
Stable DiffusionなどのAI画像生成モデルは、人種やジェンダーに関するバイアスを内包しており、それが生成される画像に反映され、職業や属性に関するステレオタイプを助長する可能性がある。