提案のNSSR-DILモデルは、画像データに依存せずに、劣化カーネルとその逆カーネルの関係を学習することで、効率的かつ高性能なスーパーレゾリューションを実現する。
雲の動きを正確に予測することで、太陽光発電の長期的な発電量を予測することができる。
単眼カメラ画像から未来のパノラマ分割と深度を同時に予測することで、ロボットが安全に行動し、計画を立てることができる。
MitoSegは、電子顕微鏡トモグラフィー画像からミトコンドリアの境界を自動的に検出し、3Dメッシュを生成するツールである。
独立機能モジュール評価フレームワーク(BEV-IFME)は、特徴マップとグラウンドトゥルースを統一的な意味表現空間に投影し、その類似度を定量的に評価することで、個別の機能モジュールの学習状況を把握する。
画像フレームの低周波情報とイベントデータの高時間分解能を融合することで、様々な高速シナリオでの安定した任意点追跡を実現する。
LLMラッパーは、大規模言語モデルを使用して視覚言語基盤モデルの出力を推論することで、それらのゼロショット性能を大幅に向上させる。
TikTokでのAI生成絵画に対する一般の反応と認識は、人間による絵画に比べて低く、否定的な傾向がある。その理由として、AI絵画が現実的すぎる、不気味に感じられる、アーティストの著作権を侵害しているなどが挙げられる。
AI生成画像内のテキストの正確性と美的統合を定量的に評価するための新しい評価指標ABHINAW
非ランベルト環境における光束調整の精度を向上させるため、照明と材質の情報を活用した新しい重み付き光束誤差関数を提案する。