核心概念
HLTCOEチームは、PLAID、mT5リランカー、文書翻訳を用いて、TREC 2023 NeuCLIRトラックに参加した。PLAIDでは、様々なモデルと訓練手法を検討し、英語クエリと文書の自動翻訳を組み合わせたTranslate-Train、Translate-Distillモデルを提案した。また、マルチリンガルTranslate-Trainモデルを開発し、単一のモデルで全ての言語ペアに対応できるようにした。
摘要
HLTCOEチームは、TREC 2023 NeuCLIRトラックに参加し、以下の取り組みを行った:
-
PLAID: ColBERTアーキテクチャを使った密な検索モデル。Translate-Train、Translate-Distillの手法を適用し、クロスリンガル検索を実現した。また、マルチリンガルTranslate-Trainモデルを開発し、単一のモデルで全言語ペアに対応できるようにした。
-
mT5リランカー: 強力なmT5モデルを使ったリランキング手法。PLAIDモデルの出力をさらに精度向上させた。
-
疎な検索手法:
- Probabilistic Structured Queries (PSQ): 言語間の単語対応確率を利用した検索手法
- Patapsco BM25: 言語処理を統一的に行うBM25検索
実験の結果、mT5リランカーが最も高い精度を示した。また、Translate-DistillモデルはmT5リランカーに匹敵する性能を発揮しつつ、効率的であることが分かった。一方で、日付情報を活用したPLAIDモデルの精度は低下した。マルチリンガル検索では、MTTモデルが最も良い結果を示した。技術文書タスクでは、モノリンガルのPLAIDモデルとmT5リランカーが優れた性能を発揮した。
统计
検索精度(nDCG@20)が最も高かったのは、mT5リランカーを使ったハイブリッドモデル(0.547, 0.540, 0.485)
Translate-Distillモデルは、mT5リランカーに匹敵する精度(0.525, 0.500, 0.474)を示した
マルチリンガルTranslate-Trainモデルは、nDCG@20が0.362、R@1000が0.771と良好な結果を示した
技術文書タスクでは、モノリンガルPLAIDモデルとmT5リランカーが最も高い精度(nDCG@20が0.410、0.378)を示した