本稿では、現実世界のデータとシミュレーターのデータを組み合わせることで、多様な運転シーンを生成する、シミュレーター条件付き拡散モデル「SimGen」を提案する。
従来のビデオ拡散モデル (VDM) は、ビデオクリップ全体に単一のタイムステップを使用するため、複雑な時間的依存関係のモデリングが制限されています。本稿では、各フレームが独立したノイズスケジュールに従うことを可能にする、ベクトル化されたタイムステップ変数 (VTV) を導入したフレームアウェアビデオ拡散モデル (FVDM) を提案します。FVDM は、標準的なビデオ生成において優れた視覚品質を実現するだけでなく、画像からビデオへの生成、ビデオ補間、長いビデオ合成など、複数のダウンストリームタスクをゼロショットで可能にします。
提案手法ProtoSegは、プロトタイプと係数を並列に学習し、それらを組み合わせることで、クラスタリングを必要とせずにインスタンスセグメンテーションを行う。
提案手法MVGSは、既存のガウシアンベースの手法の新規ビュー合成性能を大幅に向上させる。これは、多視点規制学習、クロスレイ密度化、多視点拡張密度化、クロスイントリンシック・ガイダンスの4つの主要な貢献によるものである。
3D物体の向きを推定し、物体を標準的な向きに回転させることができる。
ディスエンビジョナーは、単一の参照画像から主要な属性を正確に抽出し、強化することで、編集可能性と ID 一貫性を両立した高品質なカスタマイズ画像を生成する。
感情記述から3Dフェイシャル表情を生成するための包括的なデータセットと評価指標を提案する。
シーンフローを連続的な時空間における部分微分方程式として定式化し、自己教師あり学習によって高品質なシーンフロー推定を実現する。
SkyAI Simは、UAVを使用して衛星データから鳥瞰画像を撮影するためのオープンソースツールです。ユーザーは任意の地域の座標を指定し、カメラの設定を調整することで、現実世界に即した画像を生成できます。このツールは、視覚ベースナビゲーションや環境監視、建設、都市管理などの幅広い分野で活用できます。
ランタイムの観察介入により、任意の視覚-言語-行動モデルの視覚的ロバスト性を向上させることができる。