多言語大規模言語モデルを活用して、視覚的特徴と非英語テキスト特徴の意味的アラインメントを強化し、効率的な多言語マルチモーダル検索を実現する。
複雑な手順を実行する際に、テキストによる手順説明と視覚情報を組み合わせることが重要である。本研究では、テキストと視覚情報を統合したマルチモーダルな言語モデルを提案し、手順の理解と実行を支援する。
提案するSiBraRモデルは、重み共有を利用して、相互作用データおよびマルチモーダルサイド情報を同一の単一ブランチ埋め込みネットワークでエンコードする。これにより、寒冷スタートや欠落モダリティシナリオでも効果的な推薦を行うことができる。
MIOは、テキスト、画像、音声、動画の4つのモダリティにわたる離散的なトークンを使って、エンドツーエンドかつ自己回帰的に理解と生成を行うことができる新しい基盤モデルである。
ChemDFM-Xは、化学データの多様なモダリティを理解し、様々な化学タスクを解決できる強力な化学分野の一般知能システムである。
文脈情報を統合することで、表情、発話、生理信号などの複数のモダリティを融合し、より正確な感情状態認識が可能となる。
マルチモーダルな特徴(動作、音声、外観)を統合することで、環境の変化に頑健な第一人称視点アクション認識モデルを実現する。
マルチモーダルLLMにおける視覚理解と生成の間の矛盾を解決するため、抽象的な視覚プロンプトとしての前処理モーフトークンと、視覚的に完全な後処理モーフトークンを提案する。
AutoGluon-Multimodal (AutoMM)は、マルチモーダル学習のためのオープンソースのAutoMLライブラリである。わずか3行のコードでファウンデーションモデルの微調整が可能で、画像、テキスト、表形式データなどの様々なモダリティをサポートし、分類、回帰、オブジェクト検出、セマンティックマッチング、画像セグメンテーションなどの幅広いタスクに対応する。
SEED-Xは、画像の任意のサイズと比率の理解と、高レベルの指示に基づく画像生成と低レベルの画像操作を含む多様性の生成を統合することで、様々なユーザーニーズに対応できる柔軟で汎用的な基盤モデルである。