المفاهيم الأساسية
AnyGPTは、異なるモダリティ(音声、テキスト、画像、音楽)を統合的に処理するために離散表現を利用する多対多の言語モデルであり、既存のLLMアーキテクチャやトレーニング手法を変更せずに安定して訓練できることを示しています。
الملخص
AnyGPTは、異なるモダリティ間の情報交換と処理を可能にし、新しいモダリティのシームレスな統合を実現します。108kサンプルのマルチターン会話から成るデータセット「AnyInstruct-108k」を合成し、各モダリティが共有表現空間で整列するように訓練されています。さらに、離散表現が複数のモダリティを効果的かつ便利に統一することが示されています。
الإحصائيات
AnyGPTは107.5のCIDErスコアで画像キャプショニングタスクで優れたパフォーマンスを達成しています。
AnyGPTは0.65のCLIPscoreでテキストから画像生成タスクでも高い性能を発揮しています。
AnyGPTは8.5のWERで自動音声認識(ASR)タスクで評価されており、他の基準よりも低い性能を示しています。
اقتباسات
"Discrete representations can effectively unify multiple modalities within a language model."
"Experimental results demonstrate that AnyGPT achieves zero-shot performance comparable to specialized models across various modalities."