핵심 개념
본 논문에서는 최적화된 토픽 모델링과 딥러닝 기법을 결합한 NeuroSym-BioCAT 시스템을 제안하여, 방대한 생의학 학술 문서 요약으로부터 정확하고 효율적인 정보 검색을 가능하게 합니다.
초록
NeuroSym-BioCAT: 뉴로심볼릭 기법을 활용한 생의학 학술 문서 분류 및 질의응답 시스템
본 연구에서는 급증하는 생의학 학술 문서 요약에서 정확하고 효율적으로 정보를 검색하는 데 있어 기존 방법들의 한계를 극복하고자, 최적화된 토픽 모델링과 딥러닝 기법을 결합한 새로운 접근 방식인 NeuroSym-BioCAT 시스템을 제안하고 그 효과를 검증하고자 하였다.
본 연구에서는 BioASQ10 데이터셋을 활용하여 NeuroSym-BioCAT 시스템을 학습하고 평가하였다. 먼저, 학술 문서 요약 분류를 위해 Online Variational Bayes for Latent Dirichlet Allocation (OVB-LDA) 토픽 모델링 기법을 사용하였으며, Bimodal Population Covariance Matrix Adaptation Evolution Strategy (BI-POP CMA-ES) 최적화 기법을 통해 OVB-LDA의 성능을 향상시켰다. 이후, 분류된 문서 요약에서 정답 추출을 위해 사전 학습된 MiniLM 모델을 사용하였으며, 생의학 분야에 특화된 데이터셋을 사용하여 MiniLM 모델을 미세 조정하였다. 또한, WordNet 어휘 데이터베이스를 활용하여 생의학 개체명에 대한 동의어를 추출하여 시스템의 정확도를 높였다.