AnyGPTは、異なるモダリティ(音声、テキスト、画像、音楽)を統合的に処理するために離散表現を利用する多対多の言語モデルであり、既存のLLMアーキテクチャやトレーニング手法を変更せずに安定して訓練できることを示しています。