Core Concepts
GPT-4Vの能力を向上させるために、新しいIn-Image Learning(I2L)メカニズムが導入されました。
Abstract
この論文では、In-Image Learning(I2L)が導入され、GPT-4Vの能力を向上させる方法が提案されています。I2Lは複雑な画像を処理する際に優れた性能を発揮し、テキストだけでは正確に説明できない画像に対して効果的です。また、VT-ICLはテキスト情報を活用してパフォーマンスを向上させることができます。両方の手法の利点を組み合わせるために、特定のマルチモーダルデータ例に適切なICLメソッドを決定するためにGPT-4Vを使用することが提案されています。MathVistaとHallusionbenchでの包括的な実験により、提案手法の効果が示されています。
Stats
GPT-4V: 51.5% の平均精度
T-ICL-Img: 49.1% の平均精度
VT-ICL: 51.6% の平均精度