核心概念
Geckoは、大規模言語モデルの豊富な知識を活用して構築された汎用的なテキストエンベディングモデルである。
要約
本論文では、Geckoと呼ばれる汎用的なテキストエンベディングモデルを提案している。Geckoは、大規模言語モデル(LLM)の知識を活用して構築されている。
具体的には以下の2つのステップで行われている:
LLMを使ってクエリとタスクを生成し、FRetデータセットを作成する
LLMを使って、大規模なウェブコーパスからクエリとタスクを生成する
生成したクエリに対して、LLMを使ってポジティブとネガティブのパッセージを選定する
FRetデータセットと人手アノテーションデータを組み合わせて、Geckoモデルを学習する
FRetデータセットと、既存の人手アノテーションデータを組み合わせて、Geckoモデルを学習する
分類タスクのデータも組み合わせることで、セマンティック類似性の学習も行う
この2つのステップにより、Geckoは大規模言語モデルの豊富な知識を活用しつつ、人手アノテーションデータの長所も取り入れた汎用的なテキストエンベディングモデルとなっている。
実験の結果、Geckoは同等サイズの既存モデルを大きく上回る性能を示し、さらに大規模モデルにも匹敵する性能を発揮することが確認された。特に、分類タスクやセマンティック類似性の性能が高いことが特徴的である。
統計
大規模言語モデルを使って生成したクエリとタスクのデータセット(FRet)には、約660万件の例が含まれている。
FRetデータセットには、LLMによって選定されたポジティブとネガティブのパッセージが含まれている。
引用
「Geckoは、大規模言語モデルの豊富な知識を活用して構築された汎用的なテキストエンベディングモデルである。」
「FRetデータセットには、LLMによって選定されたポジティブとネガティブのパッセージが含まれている。」