Der Artikel untersucht, wie große Sprachmodelle, die für verschiedene Aufgaben in der Verarbeitung natürlicher Sprache eingesetzt werden, auch als Aktionserkenner verwendet werden können. Dafür wird ein neuartiger Rahmen namens LLM-AR vorgestellt, der einen Prozess der linguistischen Projektion beinhaltet, um die Eingabesignale der Aktionen (Skelettsequenzen) in ein "Satzformat" zu überführen, das für die großen Sprachmodelle verständlich ist.
Dieser Prozess der linguistischen Projektion umfasst mehrere Designs, um die projizierten "Aktionssätze" den Sätzen in menschlichen Sprachen ähnlicher zu machen und gleichzeitig eine gute Repräsentation der ursprünglichen Aktionssignale beizubehalten. Dazu gehört die Einbeziehung menschlicher induktiver Verzerrungen in den Lernprozess sowie die Verwendung eines hyperbolischen Codebuchs in dem auf Aktionen basierenden VQ-VAE-Modell.
Darüber hinaus wird das große Sprachmodell durch einen Low-Rank-Adaptations-Prozess (LoRA) angepasst, um die projizierten "Aktionssätze" zu verstehen, ohne dass die vortrainierten Gewichte des Modells verändert werden, um das zuvor erlernte reichhaltige Wissen zu erhalten.
Umfangreiche Experimente auf verschiedenen Benchmarks zeigen, dass der LLM-AR-Rahmen die Leistung der Aktionserkennung deutlich verbessert und den Stand der Technik übertrifft.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問