이 연구는 사전 훈련된 언어 모델(PLM)을 생물의학 도메인의 개체명 인식(NER) 작업에 효과적으로 활용하기 위한 방법을 제안한다.
도메인 특정 용어(DS-term)와 일반 용어를 함께 마스킹하는 Joint ELM-BLM 마스킹 전략을 제안한다. 이를 통해 DS-term에 대한 모델의 민감도를 높이면서도 일반 용어에 대한 지식도 유지할 수 있다.
DS-term에 대한 예측 오류에 더 큰 패널티를 부과하는 마스크 특정 손실(MSLM) 함수를 도입한다. 이를 통해 모델이 DS-term을 더 정확하게 예측할 수 있도록 한다.
개체명 인식 및 분류 작업을 추가하여 모델의 DS-term 인식 능력을 향상시킨다.
실험 결과, MSLM 기반 모델이 DS-term 정확도와 전반적인 NER 성능에서 기존 모델 대비 향상된 결과를 보였다. 또한 마스킹 비율과 입력 문장 길이에 따른 모델 성능 변화를 분석하였다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések