Core Concepts
LVLMの出力層のトークン分布は、不適切な指示を特定し、解答不能な質問、ジェイルブレイキング攻撃、欺瞞的な質問を含むタスクに役立つ。
Abstract
大視覚言語モデル(LVLMs)は人間の指示を解釈し応答する強力なツールとして登場。
LVLMsは時折幻覚や有害なコンテンツを生成することがある。
この研究では、LVLMsの出力層でのトークン分布を使用して不適切な指示を特定し、解答不能な質問やジェイルブレイキング攻撃、欺瞞的な質問を予測する方法が提案されている。
さらに、数学問題の正確性予測や幻想の軽減、画像分類など他のタスクでもトークン分布が有用であることが示されている。
Introduction
LVLMsは人間の指示に対応するために設計された大視覚言語モデル。
LVLMsは時折幻覚や有害コンテンツを生成する可能性がある。
Methodology
出力層でのトークン分布から不適切な指示を特定し、解答不能な質問やジェイルブレイキング攻撃、欺瞞的な質問を予測する方法が提案されている。
数学問題の正確性予測や幻想軽減、画像分類でもトークン分布が有用であることが示されている。
Results
Linear probingはLVLMsにおける他の手法よりも優れたパフォーマンスを発揮し、訓練時間と学習可能パラメータ数も少ない。
Stats
LVLMsは時折幻覚や有害コンテンツを生成する可能性がある。
Quotes
"Large vision-language models (LVLMs), designed to interpret and respond to human instructions, occasionally generate hallucinated or harmful content due to inappropriate instructions."