どうして最初のトークンだけでこれらのタスクに関する情報が含まれているのか？

Question

Accepted Answer

この研究では、LVLM（Large Vision-Language Models）から得られるログイット分布が、不適切な指示を特定する際に役立つことが示されました。最初のトークンだけでなぜ情報が含まれているかについては、以下の理由が考えられます：

入力への反応: LVLMは自己回帰生成プロセスを使用しており、各トークンは前の出力に基づいて予測されます。したがって、最初のトークンはモデルが与えられた指示や画像とどう対処すべきかを表す重要な手掛かりとなります。

信頼性: 最初のトークンはモデルが生成する内容全体を決定付ける重要な部分です。そのため、その時点でモデル内部に蓄積された知識や意図をよく表しています。

誤った方向性修正: 不適切な指示や問題的コンテンツを生成しないようLVLMを訓練する場合、最初のトークンから得られる情報は模倣学習やフィードバックメカニズムにおいて特に有用です。

情報損失防止: モデルが出力を進めるごとに情報量は徐々に減少します。そのため、後続トークンよりも最初のトークンから直接抽出した情報は貴重である可能性があります。

以上から、「最初」だけでなく「先頭」また「開始」という位置関係も考慮し、「第一単語」「第一記号」という言及方法も取り入れつつ解答しました。

大視覚言語モデルにおけるトークン分布が隠れた知識を明らかにする方法