Core Concepts
言語モデルと視覚-言語モデルは、物体の反射率を高い精度で推定できる。これは、分散意味論に基づく一般化能力の向上によるものである。
Abstract
本研究では、大規模言語モデル(LLM)と視覚-言語モデル(VLM)を用いて、物体の反射率を推定する手法を提案した。
LLMのGPT-3.5とGPT-4は、テキストのみの入力から物体の反射率を推定できることを示した。これは、分散意味論に基づく一般化能力の向上によるものである。
VLMのCLIPは、画像と言語の共通特徴表現を学習することで、画像のみの手法よりも高い精度で反射率を推定できることを示した。これは、言語情報が視覚表現に影響を与えることを意味している。
従来の画像のみの手法と比較して、LLMとVLMは物体の反射率を高精度に推定できた。特に、GPT-4は平均誤差14.7%と最も高い精度を示した。
不透明な通常物体では、GPT-4がCLIP(ViT-B/32)に次ぐ高精度を示した。一方、透明物体ではGPT-3.5がCLIP-based手法を上回る結果となった。
これらの結果は、LLMとVLMが持つ分散意味論に基づく一般化能力が、低レベルの認知タスクにも有効であることを示している。
Stats
アルミ缶の反射率は0.422程度である。
プラスチック容器の反射率は0.616から0.684の範囲にある。
ヨーグルトの反射率は0.68から0.79の範囲と推定される。
Quotes
「言語モデルと視覚-言語モデルは、物体の反射率を高い精度で推定できる。これは、分散意味論に基づく一般化能力の向上によるものである。」
「LLMとVLMが持つ分散意味論に基づく一般化能力が、低レベルの認知タスクにも有効であることを示している。」