מושגי ליבה
BERT 모델을 사용하여 1989년 헝가리의 정치적 변화 주변에서 문학 번역에 대한 인식 추세를 추적하는 코딩 시스템을 한 말뭉치에서 다른 말뭉치로 전이할 수 있음을 보여줌.
תקציר
이 연구는 1989년 헝가리의 정치적 변화 주변에서 문학 번역에 대한 사회적 인식 추세를 추적하기 위해 개발된 코딩 시스템을 한 말뭉치에서 다른 말뭉치로 전이하는 방법을 다룹니다.
- 고도의 불균형 레이블 세트에 대해 광범위한 하이퍼파라미터 튜닝과 불균형에 강한 손실 함수를 사용하여 BERT 모델을 교육할 수 있음을 보여줍니다. 이는 10겹 교차 검증을 통해 검증됩니다.
- 모델의 도메인 변화에 대한 저항성을 평가하기 위해 대상 도메인에서 테스트 세트를 선택하여 수동으로 검증합니다. 다양한 샘플 크기에 대한 신뢰 구간을 추정하는 방법을 소개합니다. 이를 통해 모델 앙상블이 콘텐츠 레이블에 대해 한 코딩 시스템을 대상 도메인으로 전이할 수 있음을 검증합니다.
- 기존 헝가리어 BERT 모델 외에도 연구 대상 말뭉치와 유사한 레이아웃과 타이포그래피의 OCR 텍스트로 사전 학습된 모델을 미세 조정합니다. 도메인 지식 없이도 OCR 텍스트에 적응하는 것이 오프더쉘 모델에 대해 거의 동일한 성능 향상을 가져온다는 것을 보여줍니다.
- 다양한 손실 함수와 저비용 기준 방법과의 추가 비교를 수행합니다. 먼저 변압기가 단어 임베딩 및 백 오브 워드 기반 저비용 기준 방법에 비해 명확한 장점이 있음을 보여줍니다. 또한 다중 레이블 분류기가 도메인 변화에 더 강하고, BERT 미세 조정 손실에 신뢰 페널티를 추가하는 것도 도메인 변화에 긍정적인 영향을 미친다는 점을 지적합니다.
סטטיסטיקה
1980-1999년 Alföld 잡지에서 9,619,240개의 단어와 206,921개의 문단을 수집했습니다.
1980-1999년 Nagyvilág 잡지에서 11,622,881개의 단어와 322,970개의 문단을 수집했습니다.
따라서 도메인 적응을 위해 21,242,121개의 단어로 구성된 데이터셋을 사용할 수 있습니다.
ציטוטים
"문화, 특히 문학과 그에 따른 문학 번역은 1989년 소위 정치적 변화 이전까지 국가에 의해 크게 지원되었으며, 이에 따라 문학 번역가들은 그 이후 기간보다 훨씬 더 높은 지위를 누렸다."
"이 대규모 파일럿 프로젝트는 데이터 기반 접근 방식을 선택하여 체제 변화를 둘러싼 두 십년 동안 문학 번역가들이 어떻게 인식되었는지를 보다 자세히 살펴보기 위해 정성적 및 정량적 방법을 결합합니다."