Core Concepts
학술 논문의 다양한 주제 영역을 정확하게 분류하기 위해 SciBERT-CNN 모델을 활용하여 주제 모델링과 클래스 가중치 기법을 적용하였다.
Abstract
이 연구는 학술 논문의 다중 레이블 분류 문제를 해결하기 위해 SciBERT-CNN 모델을 제안하였다.
데이터 세그먼테이션: 논문 초록, 제목, 본문 텍스트를 분리하고 BERT 기반 토픽 모델링을 통해 본문의 핵심 키워드를 추출하여 모델의 입력으로 사용하였다.
클래스 불균형 해결: 레이블 빈도에 따른 가중치를 부여하여 소수 클래스에 대한 모델의 민감도를 높였다.
모델 아키텍처: SciBERT를 통해 문맥 임베딩을 추출하고 CNN 구조를 통해 지역적 특징을 학습하는 하이브리드 모델을 구축하였다.
실험 결과: 제안 모델은 기존 BERT 모델 대비 향상된 성능을 보였으며, 특히 소수 클래스에 대한 F1 점수가 크게 개선되었다. 오분류 분석을 통해 모델의 한계점도 확인하였다.
Stats
학술 논문 분류 데이터셋에는 27개의 주제 영역이 존재하며, 이들 간 분포의 불균형이 심각하다.
데이터셋을 18개의 주제 영역으로 통합하여 클래스 불균형을 완화하였다.
레이블 빈도에 따른 가중치 부여를 통해 소수 클래스에 대한 모델의 민감도를 높였다.
Quotes
"학술 논문의 일일 발행 수가 지속적으로 증가하면서 연구자들이 모든 논문을 수동으로 검토하기 어려워졌다."
"기존 다중 레이블 텍스트 분류 모델은 의미적 관계를 간과하고 클래스 불균형 문제를 해결하지 못했다."