テキスト、画像、音声、動画など、異なるモダリティを統合するマルチモーダル学習において、あらゆるタスクを次フレーム予測問題として再定義することで、単一のモデルで多様なモダリティを処理できる新しいフレームワークを提案する。
マルチモーダル学習における、モデルが学習しやすい単一のモダリティに依存してしまう問題に対し、分類器ガイド付き勾配変調(CGGM)を用いることで、勾配の大きさと方向の両方を考慮したバランスの取れた学習を実現し、マルチモーダル学習の性能を向上させることができる。
本稿では、マルチモーダルダイナミクスは説明可能性を向上させる可能性を秘めているが、その有効性は限定的であり、更なる研究が必要であることを示唆している。
本稿では、生成学習と識別学習の長所を組み合わせた、マルチモーダル大規模言語モデル(MLLM)のための新しい学習手法を提案する。
本稿では、解釈可能性、柔軟性、モジュール性に優れたマルチモーダルデータ処理のための新しい深層階層VAEモデルであるFA-VAEを提案する。
本稿では、視覚言語タスクと視覚中心タスクの両方を単一のエンドツーエンドパラダイム内で処理できる汎用大規模マルチモーダルモデルであるGriffon-Gを提案する。
人間のように、テキストによる対話と複雑な意思決定を同時に行うことができる事前学習済みマルチモーダルモデルVLA4CDを構築する方法とその有効性を示します。
LLMの視覚的な理解能力を高めるために、クロスモーダル理解を用いた新しい事前学習パラダイムを提案する。
マルチモーダル学習における、異なるモダリティ間の学習の不均衡を解消するために、動的に各モダリティの最適化を制御するオンザフライ変調手法を提案する。
マルチモーダル学習において、各モダリティの学習速度を動的に調整する新しいバランス手法である「マルチロス勾配変調」を導入することで、モデルの精度が向上する。