Der Artikel beginnt mit einer Einführung in die jüngsten Entwicklungen im Bereich der Großen Sprachmodelle (LLMs) und der daraus resultierenden Nachfrage nach stilisierten Chatbots. Er stellt fest, dass bisherige Arbeiten zur Textübertragung (TST) hauptsächlich neue Methoden einführen, aber keine umfassende Bewertung der Stilübertragungsfähigkeiten fortschrittlicher LLMs wie LLaMA, Alpaca und Vicuna durchführen.
Um diese Lücke zu schließen, schlägt der Artikel den LMStyle Benchmark vor, einen neuartigen Bewertungsrahmen, der speziell für die Bewertung von Chat-Stil-Textübertragungsaufgaben (C-TST) entwickelt wurde. Neben den traditionellen Metriken zur Stilstärke führt der Benchmark eine neue Metrik namens "Angemessenheit" ein, die Kohärenz, Flüssigkeit und andere implizite Faktoren ohne Referenzbeispiele bewertet.
Der Artikel präsentiert dann eine umfassende Leistungsübersicht für elf verschiedene fortschrittliche LLMs auf Formalitäts- und Sentimentaufgaben. Die Ergebnisse zeigen, dass die auf LLaMA basierenden Modelle wie Vicuna, Koala und Alpaca insgesamt gut abschneiden, wobei Vicuna die beste Gesamtleistung in diesen C-TST-Aufgaben erzielt. Dies deutet darauf hin, dass Vicuna ein wertvoller Ausgangspunkt für die Entwicklung stilisierter Chatbots sein könnte.
翻譯成其他語言
從原文內容
arxiv.org
深入探究