Die Studie untersucht eine neue Decodierungsmethode, die "Anti-LM-Decodierung", für die Zero-Shot-In-Context-Maschinenübersetzung. Die Autoren beobachten, dass Großsprachmodelle dazu neigen, in Zero-Shot-Szenarien die Ausgangssprache anstelle der Zielsprache zu generieren, was auf eine starke Voreingenommenheit des Modells gegenüber der Ausgangssprache hindeutet.
Die Anti-LM-Decodierung zielt darauf ab, diese Voreingenommenheit zu reduzieren, indem sie die Logits der nächsten Tokenvorhersage, die auf der Ausgangssprache basieren, bestraft. Dies wird durch einen exponentiellen Abklingfaktor erreicht, um den Einfluss der Bestrafung im Laufe der Decodierung zu verringern.
Die Autoren evaluieren ihre Methode über drei Modelltypen und -größen, drei Sprachrichtungen und sowohl für Greedy-Decodierung als auch Beam-Suche. Die vorgeschlagene Anti-LM-Decodierung übertrifft andere State-of-the-Art-Decodierungsmethoden deutlich, mit bis zu 20 BLEU-Punkten Verbesserung gegenüber der Standard-Decodierung in einigen Einstellungen. Die Verbesserungen konzentrieren sich hauptsächlich auf Fälle, in denen das Modell die Ausgangssprache anstelle der Zielsprache generiert.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문