본 연구는 기존 BERT 확장 기술이 다양한 관점에서 접근했지만, 텍스트 형식의 다양성을 고려하지 않았다는 점에 주목했다. 이에 비정형 텍스트, 반구조화 텍스트, 구조화 텍스트를 통합하여 단일 표현 공간에 모델링하는 이종 지식 언어 모델(HKLM)을 제안했다.
HKLM은 다음과 같은 방식으로 작동한다:
이를 통해 문서 구조와 관련 지식을 통합적으로 활용할 수 있게 된다. 실험 결과, HKLM은 일반 텍스트 사전 학습 대비 1/4 데이터로도 우수한 성능을 보였다. 또한 도메인 독립적 HKBERT를 추가 학습하여 XNLI 데이터셋에서도 성능 향상을 달성했다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Hongyin Zhu,... في arxiv.org 03-22-2024
https://arxiv.org/pdf/2109.01048.pdfاستفسارات أعمق