本論文では、マルチビュー3D点群から意味的に豊かなシーングラフを効率的かつ堅牢に生成する新しい深層学習アーキテクチャ、TESGNNを提案する。
本稿では、入力ビデオの動きを抽出・活用することで、テキスト指示に沿った動きを持つビデオを生成するOnlyFlowという新しいビデオ拡散モデルの手法を提案する。
本稿では、従来のマルチモーダル大規模言語モデル(MLLM)において視覚エンコーダの潜在能力を最大限に活用できていない点を指摘し、多層視覚特徴を活用することで、視覚理解能力を大幅に向上させることができるDense Connectorを提案する。
本稿では、電子顕微鏡データのマルチモーダル解析により、材料の微細構造における秩序の進化を明らかにできることを示した。
深層学習モデルは、微分可能レンダリングを用いて生成された、現実的に見える3D敵対的サンプルに対して脆弱である。
動的シーンにおける非視線画像化の精度向上のため、イベントカメラを用いた新たな手法が提案されており、シミュレーションデータによる事前学習と実写データによる微調整を組み合わせることで、従来のデータ駆動型手法の限界を克服している。
自動運転における安全性と効率性を向上させるために、車両間で認識データを共有するV2X協調型認識が重要性を増しており、本稿ではその最新技術、課題、将来展望について包括的に解説する。
本稿では、従来のCAEやJPEG 2000を上回る画質を維持しつつ、ハイパースペクトル画像の空間スペクトル圧縮を効率的に実現する、SEブロックと3D畳み込みを利用した新たな敵対的生成ネットワーク(GAN)ベースのモデルを提案する。
本稿では、複数のスマートエッジセンサーを用いたマーカーレスシステムと、深層学習を用いた歩容パターン認識を組み合わせることで、リアルタイムかつ被験者に負担の少ない効率的な歩容分析を実現できることを示している。
本稿では、局所平面ホモグラフィ変換とテンプレートマッチングを用いた、従来型の画像マッチングにおける対応関係のフィルタリングと絞り込みのための新しい非深層学習手法を提案する。