核心概念
LVLMの出力層のトークン分布は、不適切な指示を特定し、解答不能な質問、ジェイルブレイキング攻撃、欺瞞的な質問を含むタスクに役立つ。
統計
LVLMsは時折幻覚や有害コンテンツを生成する可能性がある。
引用
"Large vision-language models (LVLMs), designed to interpret and respond to human instructions, occasionally generate hallucinated or harmful content due to inappropriate instructions."