Core Concepts
다국어 문장 임베딩을 활용하여 신뢰할 수 있는 앵커 포인트를 추출하고, 이를 통해 단조성이 보장되지 않는 단편적인 병렬성을 가진 텍스트에 대한 정렬을 수행하는 적응형 이중 언어 정렬 시스템을 제안한다.
Abstract
이 논문에서는 AIlign이라는 적응형 이중 언어 정렬 시스템을 소개한다. 이 정렬기는 문장 임베딩을 활용하여 신뢰할 수 있는 앵커 포인트를 추출하고, 이를 통해 병렬성이 단편적이고 단조성이 보장되지 않는 텍스트에 대한 정렬 경로를 안내한다.
실험 결과, AIlign은 최신 기술 수준과 동등한 성능을 보이면서도 준선형 복잡도를 달성한다. 또한 AIlign은 최근 시스템들(Vecalign, Bertalign)과 달리 지역적으로만 병렬성과 단조성 조건이 만족되는 텍스트도 처리할 수 있다.
앵커 포인트 추출 단계에서는 다국어 문장 임베딩(LaBSE, LASER 등)을 활용하여 유사도 임계값을 넘는 문장 쌍을 찾고, 이를 통해 정렬 가능 구간을 식별한다. 정렬 가능 구간 내에서는 동적 프로그래밍 알고리즘을 실행하여 최적의 정렬 경로를 찾는다.
실험 데이터셋으로 Text+Berg, MD.fr-ar, BAF, Grimm 등을 사용했으며, Bertalign 시스템과 비교했을 때 유사한 수준의 성능을 보이면서도 실행 시간이 크게 단축되는 것을 확인했다. Grimm 데이터셋의 경우 문장 수준이 아닌 이야기 단위 정렬에서도 매우 높은 정확도를 달성했다.
Stats
문장 길이 비율(charRatio)과 문장 수 비율(sentRatio)을 활용하여 문장 그룹 간 거리를 계산한다.
문장 그룹의 크기에 비례하여 거리에 패널티를 적용한다.
Quotes
"다국어 문장 임베딩을 활용하여 신뢰할 수 있는 앵커 포인트를 추출하고, 이를 통해 단조성이 보장되지 않는 단편적인 병렬성을 가진 텍스트에 대한 정렬을 수행하는 적응형 이중 언어 정렬 시스템을 제안한다."
"실험 결과, AIlign은 최신 기술 수준과 동등한 성능을 보이면서도 준선형 복잡도를 달성한다."
"Grimm 데이터셋의 경우 문장 수준이 아닌 이야기 단위 정렬에서도 매우 높은 정확도를 달성했다."