이 연구는 사전 훈련된 언어 모델(PLM)을 생물의학 도메인의 개체명 인식(NER) 작업에 효과적으로 활용하기 위한 방법을 제안한다.
도메인 특정 용어(DS-term)와 일반 용어를 함께 마스킹하는 Joint ELM-BLM 마스킹 전략을 제안한다. 이를 통해 DS-term에 대한 모델의 민감도를 높이면서도 일반 용어에 대한 지식도 유지할 수 있다.
DS-term에 대한 예측 오류에 더 큰 패널티를 부과하는 마스크 특정 손실(MSLM) 함수를 도입한다. 이를 통해 모델이 DS-term을 더 정확하게 예측할 수 있도록 한다.
개체명 인식 및 분류 작업을 추가하여 모델의 DS-term 인식 능력을 향상시킨다.
실험 결과, MSLM 기반 모델이 DS-term 정확도와 전반적인 NER 성능에서 기존 모델 대비 향상된 결과를 보였다. 또한 마스킹 비율과 입력 문장 길이에 따른 모델 성능 변화를 분석하였다.
To Another Language
from source content
arxiv.org
Дополнительные вопросы