自然に発生する同一ウェブページ上の画像ペアには多様な暗黙的な関係が含まれており、大規模な多モーダルモデルとLanguage Modelを使ってそれらの関係を明示的に表現することで、オープンエンドの指示に基づく高精度な画像検索が可能になる。