核心概念
LLMs tend to cluster semantically related words more tightly than classical models, showing higher accuracy on analogy tasks.
要約
最近の大規模言語モデル(LLMs)は、多くの新しい単語/文章/文書埋め込みモデルを提供しています。しかし、LLMsが単なるスケールの問題か、それともSentence-BERT(SBERT)やUniversal Sentence Encoder(USE)などの古典的なエンコーディングモデルと根本的に異なる埋め込みを生成するかは不明です。この論文では、LLMベースの単語埋め込みと古典的な単語埋め込み技術を比較し、結果はLLMsが意味的に関連する単語をより密集させることを示しています。また、Bigger Analogy Test Set(BATS)での平均精度も高いことが示されています。
統計
LLMベースの埋め込み、特にADAおよびLLaMAは、ランダムな単語ペアの期待されるコサイン類似性がPaLMおよびすべての古典的な埋め込みよりも高い。
ADAおよびPaLMはセマンティック類似性をキャプチャする際に古典的なモデルよりも優れている。
PaLMおよびADAは単語アナロジータスクで非常に優れたパフォーマンスを発揮し、SBERTはリソース制約下で効率的な代替手段である可能性がある。
引用
LLM-based embeddings, particularly ADA and LLaMA, yield higher expected cosine similarity for a random pair of words than the same for PaLM and all classical embeddings.
Among LLMs, ADA and PALM perform significantly better than classical models on word analogy tasks, while SBERT (a classic model) is often ranked as third.
Two of the LLMs, PaLM and ADA, tended to agree with each other, but they also surprisingly meaningfully agreed with SBERT.