Core Concepts
본 연구는 의료 분야의 고품질 베트남어-영어 병렬 데이터셋 MedEV를 소개하고, 이를 활용하여 다양한 기계 번역 모델의 의료 텍스트 번역 성능을 비교 및 개선하였다.
Abstract
본 연구는 다음과 같은 내용을 다루고 있다:
의료 분야의 고품질 베트남어-영어 병렬 데이터셋 MedEV 소개
27,218개의 문서 쌍, 358,796개의 문장 쌍으로 구성
4가지 장르(논문 초록, MSD 매뉴얼, 학위 논문 요약, 논문 번역)의 데이터 수집 및 전처리
문장 정렬 과정을 거쳐 고품질의 검증 및 테스트 데이터 생성
MedEV 데이터셋을 활용한 의료 분야 기계 번역 모델 성능 비교
Google Translate, ChatGPT, 최신 베트남어-영어 신경망 기계 번역 모델, 사전 훈련된 다국어 모델 등 다양한 모델 비교
미세 조정(fine-tuning)을 통해 vinai-translate 모델이 가장 우수한 성능 달성
문장 길이 및 장르별 모델 성능 분석
문장 길이가 증가할수록 BLEU 점수 향상
MSD 매뉴얼 장르에서 가장 높은 BLEU 점수 기록
본 연구는 베트남어-영어 의료 기계 번역 분야의 발전을 위한 기반을 마련하였으며, MedEV 데이터셋을 공개하여 향후 연구에 활용될 수 있도록 하였다.
Stats
의료 분야 베트남어-영어 병렬 데이터셋 MedEV는 총 358,796개의 문장 쌍으로 구성되어 있다.
문장 당 평균 단어 수는 영어가 25.09개, 베트남어가 33.76개이다.
Quotes
"의료 분야 베트남어-영어 기계 번역은 아직 충분히 연구되지 않은 영역이다."
"MedEV 데이터셋의 공개를 통해 향후 베트남어-영어 의료 기계 번역 연구가 활성화될 것으로 기대된다."