本研究では、大規模言語モデルを用いて、カテゴリ名を時空間記述子に拡張することで、テキストの知識を精緻化し、一般的なビデオ認識を向上させる。さらに、フレーム表現と記述子の最適なマッチングを求めるOD Solverを提案し、ビデオ-テキストの照合を最適輸送問題として定式化する。