Core Concepts
VLMsにおける高エネルギー・遅延コストを誘発する手法として、冗長な画像を提案し、生成されるシーケンスの長さを増加させることが可能である。
Abstract
概要:
VLMs(Large vision-language models)における高エネルギー・遅延コストの誘発方法について探究した論文。
冗長な画像を使用してVLMsの推論時に高エネルギー消費と遅延時間を増加させる手法を提案。
3つの損失目的関数と時間重み調整アルゴリズムを導入し、生成されたシーケンスの長さを増加させる効果的な手法であることを示唆。
構成:
抽象:
VLMsは多様なマルチモーダルタスクで優れた性能を発揮しているが、展開時には大量のエネルギー消費と計算リソースが必要。
攻撃手法:
高エネルギー・遅延コストの誘発方法として、冗長な画像が提案されており、生成されたシーケンスの長さが増加することが示されている。
実験結果:
冗長な画像はオリジナル画像よりも生成されたシーケンスの長さを7.87倍から8.56倍増加させ、VLMsへの高いエネルギー・遅延コスト導入可能性が示唆されている。
Stats
VLMsにおける生成シーケンスの平均長は7.87×から8.56×増加した。
MS-COCOおよびImageNetデータセットで試行された実験結果。
Quotes
"Large vision-language models (VLMs) such as GPT-4 have achieved exceptional performance across various multi-modal tasks."
"Our verbose images can increase the length of generated sequences by 7.87× and 8.56× compared to original images on MS-COCO and ImageNet datasets."