本文提出了一種利用多模態查詢(包含參考圖像和精煉文字)進行影片事件定位的新方法,並建立了一個新的評估基準 ICQ 及其測試資料集 ICQ-Highlight,同時探討了不同參考圖像風格和精煉文字對定位效果的影響。