Centrala begrepp
본 연구는 비정형 텍스트, 반구조화 텍스트, 구조화 텍스트를 통합하여 단일 표현 공간에 모델링하는 이종 지식 언어 모델(HKLM)을 제안한다. 이를 통해 문서 구조와 관련 지식을 활용하여 언어 이해를 향상시킨다.
Sammanfattning
본 연구는 기존 BERT 확장 기술이 다양한 관점에서 접근했지만, 텍스트 형식의 다양성을 고려하지 않았다는 점에 주목했다. 이에 비정형 텍스트, 반구조화 텍스트, 구조화 텍스트를 통합하여 단일 표현 공간에 모델링하는 이종 지식 언어 모델(HKLM)을 제안했다.
HKLM은 다음과 같은 방식으로 작동한다:
- 비정형 텍스트에 대해서는 마스크 언어 모델(MLM) 목적 함수를 사용하여 도메인 적응 모델을 학습한다.
- 반구조화 텍스트에 대해서는 제목 매칭 훈련(TMT)을 통해 제목이 문단과 일치하는지 여부를 예측하도록 한다.
- 구조화 텍스트에 대해서는 트리플 분류(TC) 작업을 통해 지식 트리플이 수정되었는지 여부를 예측하도록 한다.
이를 통해 문서 구조와 관련 지식을 통합적으로 활용할 수 있게 된다. 실험 결과, HKLM은 일반 텍스트 사전 학습 대비 1/4 데이터로도 우수한 성능을 보였다. 또한 도메인 독립적 HKBERT를 추가 학습하여 XNLI 데이터셋에서도 성능 향상을 달성했다.
Statistik
관광 도메인 데이터셋의 크기는 약 49,273개의 바이두 백과사전 웹페이지와 174,326개의 여행 가이드 텍스트로 구성된다.
이 데이터셋에는 약 0.27M개의 관광 명소 관련 지식 트리플이 포함되어 있다.
Citat
"기존 BERT 확장 기술은 다양한 관점에서 접근했지만, 텍스트 형식의 다양성을 고려하지 않았다."
"본 연구는 비정형 텍스트, 반구조화 텍스트, 구조화 텍스트를 통합하여 단일 표현 공간에 모델링하는 이종 지식 언어 모델(HKLM)을 제안했다."
"HKLM은 일반 텍스트 사전 학습 대비 1/4 데이터로도 우수한 성능을 보였다."