Główne pojęcia
교차 언어 구문 검색은 문맥 정보를 활용하여 다의어 문제를 해결하고 교차 언어 응용 프로그램을 향상시키는 것을 목표로 한다.
Streszczenie
이 논문은 교차 언어 문맥화된 구문 검색이라는 새로운 과제를 제안한다. 이 과제는 문맥 정보를 활용하여 일반 유형의 교차 언어 구문을 검색하는 것을 목표로 한다.
- 데이터 부족이 주요 과제이므로, 논문에서는 자동 유도된 단어 정렬 정보를 활용하여 교차 언어 구문 쌍을 자동으로 추출하는 방법을 제안한다.
- 이를 바탕으로 교차 언어 문맥화된 구문 검색기(CCPR)를 제안한다. CCPR은 대조 학습을 기반으로 하며, 유사한 문맥과 의미를 가진 교차 언어 구문의 표현을 가깝게 정렬하도록 학습한다.
- 교차 언어 구문 검색 과제와 기계 번역 과제에 대한 실험 결과, CCPR이 기존 방법들을 크게 능가하는 것으로 나타났다.
Statystyki
교차 언어 구문 쌍 1.3억 개를 WMT16 데이터셋에서 추출하였다.
교차 언어 구문 검색 과제의 테스트 셋에는 각 언어쌍당 200개의 구문 쌍이 포함되어 있다.
Cytaty
"교차 언어 구문 수준 밀집 검색은 개체 링크, 개방 도메인 질문 답변, 텍스트 생성 등 광범위한 NLP 작업에서 더 매력적인 특성을 보여주었다."
"일반 유형의 구문은 문맥에 따라 다른 의미를 가질 수 있기 때문에, 다의어 문제를 해결하기 위해 문맥 정보를 활용하는 것이 중요하다."