固定アンカーを使用するバインド手法には重大な限界があり、それらを克服するためにダイナミックなアンカーを使用するCentroBindを提案する。CentroBindは、各モダリティ間の内部情報と共有情報を最大化し、より包括的な統一表現空間を構築する。
専門家と一般市民の間で、政治的に敏感なビデオ解釈におけるマルチモーダル言語モデルのガバナンスに関する価値観と期待を理解し、民主的な意思決定プロセスを通じてモデルの改善につなげる。
本研究では、テキストと視覚の両方のモダリティからイベント引数を抽出するための統一テンプレート充填フレームワークを提案する。このアプローチにより、クロスオントロジートランスファーと、イベント固有のセマンティクスの活用が可能になる。
本論文では、グラフベースの特徴融合手法「LEGO融合」を提案する。この手法は、異なるモダリティ、表現、ドメインの特徴を統合するために、関係グラフを構築し、グラフ累乗を用いて複雑な相互作用をモデル化する。さらに、学習可能なグラフ融合演算子を導入し、特徴間の関係を動的に重み付けすることで、より効果的な融合を実現する。
データ分散が d 方向以上に存在する場合、そのデータ点は交差領域に存在することを示す。提案手法は、固有ベクトルの角度変化を学習し、交差領域を特定する。
マルチモーダル情報の利用により、ユーザーの機密情報の漏洩リスクが高まる。本研究では、因果関係に着目した公平な表現学習手法を提案し、ユーザーの機密情報を排除しつつ推薦精度を維持する。
マルチモーダル大規模言語モデルの注意機構を利用し、学習可能な潜在変数の最適化によって視覚プロンプトを注入することで、追加の訓練なしに詳細な領域記述と推論を可能にする。
LayoutDETRは、背景画像と前景要素(画像/テキスト)を組み合わせて、美しくて現実的なレイアウトを生成することができる。
MM1.5は、テキスト豊富な画像理解、視覚的参照と接地、および多画像推論の能力を強化するために設計された新しいマルチモーダル大規模言語モデルのファミリーである。
脳波信号のオブジェクト認識デコーディングを改善するために、サンプリング手法の拡張とマルチモーダル特徴の統合を提案した。これにより、従来手法に比べて7%の精度向上を達成した。