Core Concepts
ASEデータセットの特性に合わせて、VLM-LLMの零距離学習機能を活用し、画像-テキストの特徴を効果的に融合することで、欠陥分類の性能を向上させる。
Abstract
本論文では、ASEデータセットを提案する。このデータセットは、(1)訓練データが不足しており、(2)画像パターンが単調であるという課題を抱えている。従来の視覚モダリティのみに依存した手法では、これらの課題に対処するのが困難である。
そこで本手法では、VLM-LLMの零距離学習機能を活用し、画像-テキストの特徴を効果的に融合することで、欠陥分類の性能を向上させる。具体的には以下の3つの手法を提案する:
VLM-LLMのプロンプティングによる特徴抽出: VLMとLLMを活用し、画像と数値/テキスト情報から補完的な特徴を抽出する。これにより、単一モダリティでは捉えきれない情報を活用できる。
漸進的特徴アラインメントブロック: 訓練データが少ない状況下でも、特徴の整合性を保ちつつ、徐々に訓練データを増やしていくことで、特徴の整合性を高める。
クロスモーダルアテンション融合モジュール: 抽出した視覚特徴とテキスト特徴を、適応的に融合することで、より強力な特徴表現を得る。
さらに、ASEデータセットに特化したデータ拡張手法を提案し、モデルの汎化性能を向上させている。
実験結果から、提案手法がASEデータセットの2値分類および多クラス分類において、従来手法を大きく上回る性能を示すことが確認できた。
Stats
通常クラスの平均位置(µx, µy) = (0.04, -0.05)、分散(σ2
x, σ2
y) = (3.71, 3.52)
欠陥クラス1の平均位置(µx, µy) = (2.73, 0.59)、分散(σ2
x, σ2
y) = (7.38, 5.52)
欠陥クラス2の平均位置(µx, µy) = (6.43, -3.21)、分散(σ2
x, σ2
y) = (8.27, 8.63)
欠陥クラス3の平均位置(µx, µy) = (-1.10, 0.65)、分散(σ2
x, σ2
y) = (8.14, 6.44)
欠陥クラス4の平均位置(µx, µy) = (-0.21, -0.01)、分散(σ2
x, σ2
y) = (9.44, 8.77)