Keskeiset käsitteet
프랑스어 생의학 마스크드 언어 모델의 임상 개체명 인식 성능을 평가하고 비교한다.
Tiivistelmä
이 논문은 프랑스어 임상 개체명 인식을 위한 벤치마크 평가를 제공한다. 주요 내용은 다음과 같다:
3개의 공개 가용 프랑스어 임상 말뭉치(DEFT, E3C, QUAERO French Med)를 사용하여 일반 프랑스어 및 생의학 도메인 특화 마스크드 언어 모델의 성능을 평가했다.
일반 프랑스어 모델(CamemBERT, FlauBERT, FrALBERT, mBERT)과 생의학 도메인 모델(CamemBERT-bio, DrBERT)을 비교했다.
중첩 개체명 인식 과제를 수행했으며, 성능 지표와 환경적 영향(탄소 배출량) 측면에서 모델을 비교했다.
CamemBERT-bio가 일관적으로 DrBERT를 능가했으며, FlauBERT도 경쟁력 있는 성능을 보였다. FrALBERT는 가장 낮은 탄소 발자국을 나타냈다.
지식 기반 접근법이 QUAERO French Med 말뭉치에서 가장 좋은 성능을 보였다.
이 연구는 프랑스어 임상 개체명 인식을 위한 최초의 체계적인 벤치마크 평가이다.
Tilastot
DEFT 말뭉치 테스트 세트에서 CamemBERT-bio 모델의 F-measure는 0.76이다.
E3C 말뭉치 테스트 세트에서 FlauBERT 모델의 F-measure는 0.54이다.
MEDLINE 말뭉치 테스트 세트에서 CamemBERT-bio 모델의 F-measure는 0.68이다.
EMEA 말뭉치 테스트 세트에서 CamemBERT-bio 모델의 F-measure는 0.69이다.
Lainaukset
"CamemBERT-bio가 DrBERT를 일관적으로 능가하는 것으로 나타났으며, FlauBERT도 경쟁력 있는 성능을 보였다."
"FrALBERT는 성능과 환경적 영향(탄소 배출량) 측면에서 적절한 절충안을 제공한다."
"지식 기반 접근법이 QUAERO French Med 말뭉치에서 가장 좋은 성능을 보였다."