Detect2Interactは、オブジェクトの空間的マップと言語的記述を統合し、ユーザーの質問に合わせてオブジェクトの視覚的キーフィールドを特定することで、より直感的で対話的なVQAシステムを実現する。