핵심 개념
기존 SignBank 데이터셋의 불일치와 결함을 해결하고 데이터셋을 확장하여 수화와 구어 간 기계 번역 성능을 향상시킴
초록
이 연구는 SignBank 데이터셋을 정제하고 확장하여 수화와 구어 간 기계 번역 성능을 향상시키는 것을 목표로 합니다.
데이터 정제 과정:
규칙 기반 자동 주석 적용
ChatGPT를 활용한 수동 데이터 정제
정제 효과 검증을 위한 실험 수행
데이터 확장 과정:
각 용어에 대한 다양한 표현 생성
ChatGPT를 활용하여 동의어, 대체 표현, 숫자 표현 등 추가
실험 결과, 정제된 데이터셋을 사용하여 훈련한 모델이 원본 데이터셋 대비 성능이 크게 향상되었습니다. 이는 데이터 품질 개선이 복잡한 모델링 기법만큼 중요함을 보여줍니다. 확장된 데이터셋의 경우 성능 향상이 제한적이었는데, 이는 불완전한 데이터에 대한 노이즈 제거 효과와 대상 분포에서 벗어나는 표현 추가 간의 균형이 중요함을 시사합니다.
통계
데이터셋 크기: 원본 521,390쌍, 정제 357,574쌍, 확장 1,027,418쌍
어휘 크기: 원본 6,016, 정제 5,200, 확장 5,976
인용구
"데이터 품질 개선이 복잡한 모델링 기법만큼 중요하다."
"불완전한 데이터에 대한 노이즈 제거 효과와 대상 분포에서 벗어나는 표현 추가 간의 균형이 중요하다."