이 논문은 제로샷 인-컨텍스트 기계 번역을 위한 Anti-LM 디코딩 방법을 소개한다. 제로샷 학습은 모델이 지침만으로 작업을 수행할 수 있는 현상을 말한다. 그러나 사전 훈련된 대규모 언어 모델은 제로샷 작업에 대해 잘 보정되지 않는 것으로 알려져 있다. 이를 해결하기 위해 저자들은 문맥을 고려하여 다음 토큰 생성 확률을 조정하는 대조 디코딩 목적 함수를 제안한다.
제안된 Anti-LM 목적 함수는 소스 문장 로짓을 빼는 방식으로 소스 언어 편향을 줄이고자 한다. 이는 모델이 소스 문장을 그대로 반복하거나 소스 언어로 계속 생성하는 것을 방지한다. 저자들은 3가지 모델 유형과 크기, 3개 언어 방향, 그리디 디코딩과 빔 서치에 대해 실험을 수행했다. 제안 방법은 다른 최신 디코딩 목적 함수보다 우수한 성능을 보였으며, 일부 설정에서 기본 목적 함수 대비 최대 20 BLEU 점수 향상을 달성했다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Suzanna Sia,... alle arxiv.org 04-04-2024
https://arxiv.org/pdf/2311.08324.pdfDomande più approfondite