이 연구에서는 프랑스어 생물의학 데이터를 활용하여 CamemBERT 모델을 개선한 CamemBERT-bio를 소개한다.
먼저, 413만 단어로 구성된 새로운 공개 프랑스어 생물의학 데이터셋 biomed-fr을 구축했다. 이 데이터셋을 활용하여 CamemBERT 모델에 대한 지속적 사전 학습을 수행했다.
그 결과, CamemBERT-bio는 다양한 프랑스어 생물의학 개체명 인식 작업에서 평균 2.54점의 F1 점수 향상을 보였다. 이는 지속적 사전 학습이 계산 집약적인 새로 학습하는 것에 비해 동등한 성능을 달성할 수 있는 효과적인 대안임을 보여준다.
또한 이 연구는 프랑스어 생물의학 모델 평가를 위한 표준 프로토콜의 중요성을 강조한다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Rian Touchen... في arxiv.org 04-04-2024
https://arxiv.org/pdf/2306.15550.pdfاستفسارات أعمق