المفاهيم الأساسية
Decoder-only Language Models können durch einfache Anpassungen in leistungsfähige universelle Textencoder umgewandelt werden, die die Leistung von speziell dafür entwickelten Encoder-Modellen übertreffen.
الملخص
Der Artikel stellt LLM2Vec vor, einen einfachen unüberwachten Ansatz, um jeden Decoder-only Language Model (LLM) in einen starken Textencoder umzuwandeln. LLM2Vec besteht aus drei einfachen Schritten:
- Aktivierung der bidirektionalen Aufmerksamkeit, um die Einschränkungen der kausalen Aufmerksamkeit zu überwinden.
- Anpassung des Modells durch Training mit maskierter nächster Token-Vorhersage, um die bidirektionale Aufmerksamkeit effektiv zu nutzen.
- Anwendung von unüberwachtem kontrastivem Lernen, um bessere Sequenzrepräsentationen zu lernen.
Die Autoren wenden LLM2Vec auf 3 populäre LLMs mit 1,3 bis 7 Milliarden Parametern an und evaluieren die transformierten Modelle auf Wort- und Sequenzebene-Aufgaben. Auf Wortebene-Aufgaben übertreffen die LLM2Vec-Modelle deutlich starke Encoder-only Modelle. Auf dem Massive Text Embeddings Benchmark (MTEB) erreichen die LLM2Vec-Modelle einen neuen State-of-the-Art für unüberwachte Modelle.
Darüber hinaus zeigt die Kombination von LLM2Vec mit überwachtem kontrastivem Lernen eine neue State-of-the-Art-Leistung unter Modellen, die nur öffentlich verfügbare Daten verwenden. Die starken empirischen Ergebnisse und die umfassende Analyse zeigen, dass LLMs in effizienter Weise in universelle Textencoder umgewandelt werden können, ohne aufwendige Anpassungen oder synthetisch generierte Daten zu benötigen.
الإحصائيات
Decoder-only Language Models lernen aus allen Eingabetokens und nicht nur aus einem kleinen Prozentsatz, was sie deutlich stichprobeneffizienter als Encoder-only Modelle macht.
LLM2Vec-transformierte Modelle übertreffen starke Encoder-only Modelle um einen großen Abstand auf Wortebene-Aufgaben.
LLM2Vec-transformierte Modelle erreichen einen neuen State-of-the-Art auf dem Massive Text Embeddings Benchmark unter unüberwachten Modellen.
Die Kombination von LLM2Vec mit überwachtem kontrastivem Lernen erreicht eine neue State-of-the-Art-Leistung unter Modellen, die nur öffentlich verfügbare Daten verwenden.
اقتباسات
"Decoder-only Language Models sind die State-of-the-Art-Modelle für die meisten heutigen NLP-Aufgaben und Benchmarks. Dennoch übernimmt die Community diese Modelle nur langsam für Texteinbettungsaufgaben, die reichhaltige kontextualisierte Darstellungen erfordern."
"Unsere starken empirischen Ergebnisse und umfassende Analyse zeigen, dass LLMs in effizienter Weise in universelle Textencoder umgewandelt werden können, ohne aufwendige Anpassungen oder synthetisch generierte Daten zu benötigen."