Core Concepts
近代通信システムにおいて効果的なコミュニケーションを実現するために、受信者の行動トークンを導入した大規模なコンテンツと行動モデル(LCBMs)が重要である。
Abstract
Shannon & Weaverの情報理論に基づく通信レベルの分類:技術レベル、意味レベル、効果レベル。
LLMsは第2レベルに進展し、LCBMsは受信者の行動を予測し最適化するために導入される。
LCBMsは広範囲のタスクで結果を示し、CBCリポジトリも公開。
3つの通信要素(発信者、メッセージ、チャンネル)を同じ空間に統合するために挑戦。
ビジョン言語モデル(VLM)としてLCBMが機能し、ビジョン情報を自然言語空間で処理。
行動指示チューニング(BFT)を導入して5つの通信要素を同じ空間に統合。
Stats
LCBMはGPT-3.5やGPT-4よりも優れたパフォーマンスを示す。
LCBMは10倍小さくても他の大規模な言語モデルよりも優れた結果を出す。
Quotes
"ビジョン情報を自然言語空間で処理することで、LLMが画像やビデオに関する推論が可能" - Bhattacharyya et al., 2023