이 연구는 SignBank 데이터셋을 정제하고 확장하여 수화와 구어 간 기계 번역 성능을 향상시키는 것을 목표로 합니다.
데이터 정제 과정:
데이터 확장 과정:
실험 결과, 정제된 데이터셋을 사용하여 훈련한 모델이 원본 데이터셋 대비 성능이 크게 향상되었습니다. 이는 데이터 품질 개선이 복잡한 모델링 기법만큼 중요함을 보여줍니다. 확장된 데이터셋의 경우 성능 향상이 제한적이었는데, 이는 불완전한 데이터에 대한 노이즈 제거 효과와 대상 분포에서 벗어나는 표현 추가 간의 균형이 중요함을 시사합니다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Amit Moryoss... lúc arxiv.org 03-22-2024
https://arxiv.org/pdf/2309.11566.pdfYêu cầu sâu hơn