Core Concepts
의료 소비자 생성 콘텐츠에서 단어 임베딩 기술을 활용하여 다국어 의료 소비자 어휘를 구축하는 방법을 제안한다.
Abstract
이 연구는 다국어 의료 소비자 어휘 구축을 위한 교차 언어 자동 용어 인식 프레임워크를 제안한다. 이 프레임워크는 영어와 비영어(중국어) 의료 소비자 생성 콘텐츠 코퍼스를 입력으로 사용한다.
먼저, 각 언어의 단어 벡터 공간을 skip-gram 알고리즘을 사용하여 결정한다. 이를 통해 각 언어 내에서 일반 사람들이 사용하는 단어 연관성을 인코딩한다.
다음으로, 소수의 의료 개념 번역 쌍을 활용하여 두 단어 벡터 공간을 정렬한다. 이를 통해 언어 간 의미적으로 유사한 단어를 식별할 수 있다.
실험 결과, 제안한 프레임워크는 다른 대형 언어 모델에 비해 다국어 의료 소비자 어휘 식별 성능이 우수한 것으로 나타났다. 또한 제안 프레임워크는 원시 의료 소비자 생성 콘텐츠 코퍼스와 소수의 의료 개념 번역만 필요하므로, 인적 노력을 크게 줄일 수 있다.
Stats
의료 소비자 생성 콘텐츠 코퍼스의 문서 수는 영어가 520,659개, 중국어가 259,709개이다.
영어 코퍼스의 평균 문서 길이는 754.11자, 중국어 코퍼스의 평균 문서 길이는 177.70자이다.
Quotes
"의료 소비자 생성 콘텐츠(HCGC)는 의사와 환자 간 상호작용 연구, 건강 정보 검색 행동 연구 등 다양한 연구 질문을 연구하는 데 도움이 된다."
"OAC CHV는 전문가 중심 어휘와 달리 일반 사람들이 사용하는 의료 표현을 포착하는 것을 목적으로 한다."