Der Artikel beginnt mit einer Einführung in die jüngsten Entwicklungen im Bereich der Großen Sprachmodelle (LLMs) und der daraus resultierenden Nachfrage nach stilisierten Chatbots. Er stellt fest, dass bisherige Arbeiten zur Textübertragung (TST) hauptsächlich neue Methoden vorgestellt haben, aber keine umfassende Bewertung der Stilübertragungsfähigkeiten fortschrittlicher LLMs wie LLaMA, Alpaca und Vicuna durchgeführt haben.
Um diese Lücke zu schließen, schlägt der Artikel den LMStyle Benchmark vor, einen neuartigen Bewertungsrahmen, der speziell für die Chat-Stil-Textübertragung (C-TST) entwickelt wurde. Im Gegensatz zu den traditionellen TST-Aufgaben, die sich auf den Textübertragungsprozess ohne Kontext konzentrieren, zielt C-TST darauf ab, den Stil von Chatbot-Antworten unter Berücksichtigung des Kontexts zu übertragen.
Der LMStyle Benchmark umfasst zwei Hauptaspekte: Stilstärke und Angemessenheit. Für die Stilstärke werden Klassifikatoren für Formalität und Sentiment verwendet. Für die Angemessenheit werden vier Ansätze vorgestellt: SacreBLEU, Sentence-BERT, ChatGPT und Negative Log Likelihood (NLL). Die Korrelationsanalyse zeigt, dass der NLL-Ansatz am besten mit menschlichen Bewertungen korreliert.
Basierend auf dem LMStyle Benchmark präsentiert der Artikel eine umfassende Leistungsübersicht für 11 verschiedene fortschrittliche LLMs in Bezug auf Formalität und Sentiment. Die Ergebnisse zeigen, dass die auf LLaMA basierenden Modelle wie Vicuna, Koala und Alpaca insgesamt gut abschneiden, wobei Vicuna die beste Gesamtleistung aufweist. Dies deutet darauf hin, dass Vicuna ein wertvoller Ausgangspunkt für die Entwicklung stilisierter Chatbots sein könnte.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Jianlin Chen في arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.08943.pdfاستفسارات أعمق