オーディオ信号の特定の音源に注目できる人間の能力を模倣するため、オーディオ評価タスクをテキスト予測タスクとして位置づける。
MINT-1Tは、これまでで最大規模かつ最も多様なオープンソースのマルチモーダルデータセットであり、1兆トークンと34億枚の画像を含んでいる。
ChefFusionは、レシピ生成、料理画像生成、食品理解、食品認識などの多様なタスクを統合した初のマルチモーダルな料理コンピューティング基盤モデルである。従来のアプローチと比較して、より広範な機能を備え、特に料理画像生成とレシピ生成の分野で優れた性能を示している。
差別的で傲慢な言語(PCL)は脆弱なグループを標的とする有害な言説であり、オンラインとオフラインの安全を脅かしている。本研究では、中国の大規模動画プラットフォームBilibiliから収集した715本の動画からなる初のマルチモーダルPCLデータセット(PCLMM)を開発し、表情特徴を活用したマルチモーダルPCLディテクター(MultiPCL)を提案した。
大規模言語モデルの力を活用し、視覚情報に基づいて音楽を生成するマルチモーダルフレームワークを提案する。
欠損モダリティが自我中心的アクション認識に及ぼす影響を調査し、欠損モダリティに対処するための新しい手法を提案する。