本研究では、視覚言語モデルの双方向エンコーダーを、大規模な事前学習済み言語モデルを用いて適応させる手法を提案している。
まず、パラフレーズされた検索クエリに対して大きく異なる検索結果を返す既存の視覚言語モデルの問題点を指摘している。この問題は、モデルの言語エンコーダーが限られたテキストデータでのみ学習されているため、パラフレーズの概念を十分に学習できていないことが原因だと考えられる。
そこで本研究では、大規模な事前学習済み言語モデルを用いて言語エンコーダーを初期化し、さらに適応層を付加することで、パラフレーズされた検索クエリに対してより類似した検索結果を得られるようにモデルを改善している。
実験の結果、提案手法は既存の視覚言語モデルと比べて、パラフレーズ検索の順位類似度を大幅に向上させつつ、従来の分類・検索精度も維持できることが示された。また、テキストの意味的類似性タスクでも高い性能を発揮することが確認された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jiacheng Che... at arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.03190.pdfDeeper Inquiries