Core Concepts
토론토 메트로폴리탄 대학교는 TREC 임상시험 트랙 2023에 참여하여 환자 프로필에 가장 적합한 임상시험을 찾기 위해 고급 자연어 처리 기술과 신경망 언어 모델을 활용했다.
Abstract
이 논문은 토론토 메트로폴리탄 대학교의 TREC 임상시험 트랙 2023 참여에 대해 설명한다. 이 트랙에서는 환자 또는 의사가 설문지를 작성하여 적합한 임상시험을 찾는 시나리오를 모의한다. 토론토 메트로폴리탄 대학교 팀은 ClinicalTrials.gov에서 추출한 임상시험 데이터를 활용하여 실험을 수행했다.
데이터 준비 단계에서는 XML 형식의 데이터를 파싱하고 전처리하여 신경망 언어 모델의 입력으로 사용할 수 있는 형태로 변환했다. 정보 검색 및 문서 순위화 단계에서는 문장 변환기와 Doc2Vec 기술을 사용하여 주제와 문서 간의 유사도를 계산하고 순위를 매겼다.
실험 결과, 문장 변환기 모델이 Doc2Vec 모델보다 더 나은 성능을 보였다. 이는 문장 변환기의 cross-encoder 아키텍처가 문장 유사도 계산에 더 적합하기 때문으로 분석된다. 전체적인 NDCG 점수와 다른 평가 지표를 통해 팀의 접근 방식이 임상시험 데이터 검색 및 순위화에 효과적임을 확인할 수 있었다.
Stats
토론토 메트로폴리탄 대학교 팀은 TREC 임상시험 트랙 2023에 총 4개의 실험 결과를 제출했다.
문장 변환기 모델을 사용한 실험 결과(v2tmurun, v3tmurun)가 Doc2Vec 모델을 사용한 실험 결과(v1tmurun, v4tmurun)보다 전반적으로 더 나은 NDCG 점수를 보였다.
4개 실험 결과 중 v2tmurun이 NDCG@5 0.1748, NDCG@10 0.1713, NDCG@15 0.1723, NDCG@20 0.1568로 가장 높은 성능을 보였다.