핵심 개념
KBMC는 한국어 의료 Named Entity Recognition을 위한 첫 번째 공개 데이터셋으로, 질병명, 신체 부위, 치료법 등의 의료 개체를 정확하게 인식하는 데 도움을 줍니다.
초록
본 연구에서는 KBMC(Korean Bio-Medical Corpus)라는 한국어 의료 Named Entity Recognition(NER) 데이터셋을 소개합니다. KBMC는 다음과 같은 특징을 가지고 있습니다:
- 질병명, 신체 부위, 치료법 등의 의료 개체를 정확하게 인식할 수 있도록 구축된 첫 번째 공개 한국어 의료 NER 데이터셋입니다.
- ChatGPT를 활용하여 의료 용어를 포함한 문장을 생성하고, 전문가의 검토를 거쳐 데이터를 구축했습니다.
- 일반 NER 데이터셋과 KBMC를 결합하여 실험한 결과, KBMC 데이터셋을 활용했을 때 의료 개체 인식 성능이 20% 이상 향상되었습니다.
- MedSpaCy와 같은 임상 NLP 도구에서도 KBMC 데이터셋을 활용하여 우수한 성능을 보였습니다.
이를 통해 KBMC 데이터셋이 한국어 의료 NLP 연구에 크게 기여할 것으로 기대됩니다.
통계
의료 Named Entity 중 질병명은 총 10,595개의 B-태그와 10,089개의 I-태그로 구성됩니다.
신체 부위는 총 5,215개의 B-태그와 1,158개의 I-태그로 구성됩니다.
치료법은 총 1,193개의 B-태그와 839개의 I-태그로 구성됩니다.
인용구
"Systemic myasthenia is a condition in which the whole body loses strength, making daily life difficult, accompanied by muscle pain and a sense of lethargy."
"Pancreatic cancer refers to a tumor (a lump of tumor) made up of cancer cells that form in the pancreas."
"Such diseases lead to symptoms such as respiratory distress, coughing, asthma attacks, etc., caused by decreased lung function, greatly affecting daily life."
"Burkitt lymphoma is a malignant tumor that originates in the lymph nodes. Early detection and treatment are crucial, and various treatment methods, such as chemotherapy and radiation therapy, exist."