テキストから画像への生成モデルの忠実性を向上させるために、外部知識ベースと大規模言語モデルの知識を文脈に応じて動的に活用する新しいフレームワーク、CKPT (Contextual Knowledge Pursuit) を提案する。
画像の抽象的で階層的な意味表現を学習するために、結合埋め込みアーキテクチャ(JEA)を積み重ねたS-JEA(Stacked Joint Embedding Architectures)を提案する。
Transformer ベースのセマンティックセグメンテーションにおけるデコーダの設計は、主成分分析(PCA)や符号化レートの概念と密接に関係しており、これらの圧縮原理に基づいて、より解釈可能で高性能なデコーダを設計できる。
本稿では、動的画像融合が静的画像融合よりも優れていることを理論的に証明し、融合画像を単一ソースコンポーネントに分解することで、画像融合の一般化誤差の上限を初めて証明する。そして、その理論に基づき、新たなテスト時動的画像融合パラダイムを提案する。
従来の逆レンダリングに基づく3Dリライティング手法は計算コストが高く、複雑な光輸送のモデリングが必要となるため、本論文では、単一画像リライティング拡散モデルと潜在NeRFを組み合わせた、より効率的で高品質な3Dリライティング手法「IllumiNeRF」を提案する。
ビデオ内の冗長なコンテンツを処理する際に、従来のビデオLLMが抱える制限を、プロンプトガイドプーリングを用いることで克服し、短編・長編ビデオ両方の理解度向上と効率的な処理を実現する。
深層学習モデルのトレーニングにおいて、データの質と量は重要な要素であり、特に文脈的な多様性を考慮したデータ選択が、モデルの精度、効率性、公平性を向上させるために重要である。
本稿では、画像内のキーポイントの理解と位置特定において、従来の視覚モデルを超える可能性を秘めた、マルチモーダル大規模言語モデル(MLLM)を用いた新しいフレームワーク「KptLLM」を提案する。
本稿では、ノイズの多い、不完全な、まばらな3D点群データの品質を向上させるために、深層学習を用いた最新の3D点群エンハンスメント手法について包括的に概説する。
大気乱流を通して高品質な画像を取得することは、天文学、防衛、バイオメトリクスなどの分野で重要な課題である。本書では、従来の画像処理手法とは異なり、計算カメラモデルと画像復元アルゴリズムの共同設計という新しい視点を導入し、大気乱流の影響を効果的に補正する計算イメージング技術について解説する。