深層ニューラルネットワークにおけるスキップ接続は、訓練段階での最適化を容易にし、テスト時の精度を向上させるために重要な役割を果たしている。
提案手法PMCMは、可視光と赤外線の画像を部分的に混合することで、両モーダル間の意味的対応を学習し、モーダル間のギャップを軽減する。さらに、部分的な混合により、モーダル間の不均衡問題も緩和できる。
ユーザーのフィードバックに基づいて、視覚言語モデルを用いてクエリを段階的に改善することで、対話型画像検索の性能を向上させる。さらに、大規模言語モデルを用いてクエリの冗長な情報を除去することで、クエリの質を高める。
提案手法は、事前に用意された物体インスタンスに依存せずに、ポイントクラウドと言語指示を直接処理することで、相対位置情報を活用しながら効率的に位置推定を行う。
コンピュータビジョンを用いて道路表面の摩擦特性を推定する深層学習回帰モデルSIWNetを提案する。SIWNetは予測区間を推定する機能を備えており、推定の不確実性を定量化できる。
属性指導型マルチレベル注意ネットワーク(AG-MAN)は、事前学習CNNバックボーンの特徴抽出能力を向上させ、属性特異的な表現を抽出することで、高精細ファッション検索の精度を大幅に改善する。
テキストから3Dオブジェクトの材質を生成する手法を提案する。
本手法は、ピラミッド表現を用いた3D-aware GANsジェネレータと拡散モデルを組み合わせることで、高品質で整合性の取れた3Dポートレートを生成する。
最終年次コンピュータサイエンス学生のインポスター症候群は、コードの理解に影響を及ぼし、自信の低下と正解率の低下につながる。
テキストガイド型ディフューション・モデルを用いて、顕著物体の境界を保持しつつ自然な背景を生成する手法を提案する。