Concetti Chiave
視覚的質問応答のためのボトルネック構造を提案し、人間が理解可能な中間表現を生成することで、モデルの決定過程を明示的に示す。
Sintesi
本研究では、視覚的質問応答(VQA)のための新しい解釈可能な設計手法「動的手がかりボトルネック(DCLUB)」を提案している。従来のブラックボックスモデルとは異なり、DCLUBは2段階の構造を持つ。
まず、入力の画像と質問に基づいて、自然言語で表現された「視覚的手がかり」を生成する。これらの手がかりは、答えを導くための視覚的証拠を示すものである。次に、生成された手がかりに基づいて、自然言語推論モデルを用いて最終的な答えを決定する。
この2段階の構造により、DCLUBは人間が理解可能な中間表現を提供し、モデルの決定過程を明示的に示すことができる。実験の結果、DCLUBは従来のブラックボックスモデルと同等の性能を維持しつつ、より解釈可能な設計を実現できることが示された。
Statistiche
鼻が上を向いている
尾翼が下を向いている
滑走路が後ろに長く続いている
機体が地面から離れている
Citazioni
従来のブラックボックスモデルでは、モデルの内部計算過程が不透明であり、信頼性が低い。
事後的な説明では、モデルの真の理由を反映していない可能性がある。
解釈可能な設計のモデルは、従来のブラックボックスモデルよりも性能が低いと考えられてきた。