Der Artikel präsentiert ein neues Aufmerksamkeitsmodul, das aus zwei Komponenten besteht: Streaming Attention (SA) und Low Latency Streaming Attention (LLSA).
SA stellt einen Vorschlag für eine effiziente Implementierung von Streaming-SSRL dar, indem der Rezeptionsbereich der Aufmerksamkeit eingeschränkt wird, um die Rechenleistung und den Speicherverbrauch zu reduzieren. LLSA löst das Latenzaufbau-Problem anderer Streaming-Aufmerksamkeitsarchitekturen, indem es eine Latenz von einer Schicht garantiert, auch wenn mehrere Schichten gestapelt sind.
Die Autoren führen einen Vergleich zwischen der herkömmlichen, azausalen Aufmerksamkeit (AA), SA und LLSA durch, indem sie ein Streaming-SSRL-Modell mit automatischer Spracherkennung als Downstream-Aufgabe trainieren. Das Modell mit dem vorgeschlagenen LLSA-Modul erreicht eine Wortfehlerrate (WER) von 5,84%, was eine erhebliche Verbesserung gegenüber der maskierten azausalen Aufmerksamkeit (WER = 13,82%) darstellt. Darüber hinaus reduziert die Implementierung die Inferenzlatenz von 1,92 auf 0,16 Sekunden.
Das vorgeschlagene Modul zur geringen Latenz bewahrt viele der Vorteile herkömmlicher azausaler Transformatoren, ermöglicht aber auch Latenzcharakteristiken, die es für Echtzeitanwendungen geeignet machen.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Jianbo Ma,Si... pada arxiv.org 03-19-2024
https://arxiv.org/pdf/2302.13451.pdfPertanyaan yang Lebih Dalam