Core Concepts
既存の単一様式エンコーダを活用し、最小限の多様式ペアデータを用いて効率的に多様式融合を行う。
Abstract
本研究では、データ効率的かつ計算効率的な多様式融合フレームワークを提案する。
主な特徴は以下の通り:
既存の単一様式エンコーダを活用し、それらの潜在空間を融合することで、大規模な多様式ペアデータを必要とせずに高性能な多様式融合を実現する。
FuseMixと呼ばれる新しい多様式データ拡張手法を提案し、潜在空間上での意味的に整合性のある合成サンプルを生成する。
画像-テキスト、音声-テキストの各タスクにおいて、大規模データを使用する従来手法と比べて桁違いの効率性を示す。例えば、Flickr30Kのテキスト-画像検索タスクでCLIPを600倍少ないGPU日数と80倍少ない画像-テキストペアで凌駕する。
限られた多様式ペアデータ環境下では、データの量だけでなく質と多様性が重要であることを示す。
提案手法を用いて、既存のテキスト-画像生成モデルをオーディオ-画像生成に応用できることを示す。
Stats
提案手法はFlickr30Kのテキスト-画像検索タスクで、CLIP[70]と比べて約600倍少ないGPU日数と約80倍少ない画像-テキストペアを使用しながらも、性能を上回っている。
提案手法はAudioCapsのテキスト-音声検索タスクで、既存手法と比べて高い性能を示している。
Quotes
"Recent advances in multimodal machine learning have unlocked unprecedented capabilities across a wide array of understanding-based [47, 48] and generation-based [22, 46, 49, 54] applications, some of which have even garnered mainstream attention [1, 72, 73, 102]."
"We surmise that existing unimodal encoders pre-trained on large amounts of unimodal data should provide an effective bootstrap to create multimodal models from unimodal ones at much lower costs."