Grunnleggende konsepter
NMT와 LLM 기반 MT 모델의 다양한 가설에서 MBR 디코딩을 사용하여 최종 번역을 선택함으로써 번역 성능을 향상시켰다.
Sammendrag
이 논문은 HW-TSC의 WMT24 일반 기계 번역 공동 과제 제출 내용을 다룹니다.
NMT 시스템 구축을 위해 다음과 같은 기법들을 사용했습니다:
- 정규화된 드롭아웃(R-Drop)
- 양방향 학습(BiT)
- 데이터 다양화(DD), 정방향 번역(FT), 역방향 번역(BT)
- 교대 학습(AT)
- 커리큘럼 학습(CL)
- 전이 앙상블 학습(TEL)
LLM 기반 MT 시스템 구축을 위해 다음과 같은 단계를 거쳤습니다:
- 지속적 사전 학습(CPT): 중국어와 영어 단일언어 데이터로 LLM 모델 성능 향상
- 지도 미세조정(SFT): 고품질 병렬 데이터로 LLM 모델 미세조정
- 대조적 선호 최적화(CPO): 선호도 데이터로 LLM 모델 추가 최적화
마지막으로 NMT와 LLM 기반 MT 모델의 다양한 가설에서 MBR 디코딩을 사용하여 최종 번역을 선택함으로써 번역 성능을 향상시켰습니다.
Statistikk
과학 사실은 실험에서 비롯된다.
이 접근법은 NMT와 LLM 기반 MT 모델의 성능을 향상시켰다.
MBR 디코딩은 최종 번역 선택에 효과적이었다.
Sitater
"NMT와 LLM 기반 MT 모델의 다양한 가설에서 MBR 디코딩을 사용하여 최종 번역을 선택함으로써 번역 성능을 향상시켰다."
"지속적 사전 학습(CPT), 지도 미세조정(SFT), 대조적 선호 최적화(CPO)를 통해 LLM 기반 MT 모델의 성능을 향상시켰다."