핵심 개념
희소 데이터로부터 관계를 추론하는 것은 제품 추천에서 신약 개발에 이르기까지 다양한 응용 분야에서 중요한 과제이다. 최근 제안된 선형 모델은 더 복잡한 추천 시스템 알고리즘보다 속도와 정확도 면에서 놀라운 장점을 보여주었다. 여기서는 이 선형 모델을 확장하여 이중 이웃 정규화 행렬 완성 문제를 위한 얕은 오토인코더를 개발하였다. 우리는 이 접근법이 기존 최첨단 방법보다 약물-표적 상호작용 및 약물-질병 연관성 예측에서 속도와 정확도 면에서 우수함을 보여준다.
초록
이 논문은 희소 행렬 완성을 위한 효율적인 알고리즘을 제안한다.
-
기존의 EASE 방법은 항목-항목 가중치를 학습하여 사용자-항목 상호작용 행렬의 누락된 항목을 완성한다. 이 논문에서는 이를 확장하여 사용자-사용자 가중치도 학습하는 방법을 제안한다.
-
사용자-사용자 및 항목-항목 유사도 정보를 활용하여 더 정확한 모델을 설계할 수 있다. 예를 들어 약물-표적 상호작용 예측에서 약물-약물 유사도와 단백질-단백질 유사도를 활용할 수 있다.
-
더 나아가 사용자, 항목, 그리고 다른 관련 개체들 간의 다양한 관계를 활용하는 일반화된 DUET 알고리즘을 제안한다. 이를 통해 약물-질병 연관성 예측 등의 문제에서 높은 성능을 보인다.
-
DrugBank 데이터셋과 약물 재창출 벤치마크에서 DUET 알고리즘이 기존 최첨단 방법들보다 속도와 정확도 면에서 우수한 성능을 보였다.
통계
약물-표적 상호작용 예측에서 DUET 알고리즘의 AUPR은 0.580으로, 다른 방법들(MF: 0.549, EASEdt: 0.492)보다 높다.
약물-질병 연관성 예측에서 DUET의 AUPR은 0.400으로, EASE(0.287)와 MF(0.371)보다 높다.
DUET은 행렬 분해 기반 방법보다 5배 이상 빠른 속도를 보인다.
인용구
"희소 데이터로부터 관계를 추론하는 것은 제품 추천에서 신약 개발에 이르기까지 다양한 응용 분야에서 중요한 과제이다."
"최근 제안된 선형 모델은 더 복잡한 추천 시스템 알고리즘보다 속도와 정확도 면에서 놀라운 장점을 보여주었다."
"우리는 이 접근법이 기존 최첨단 방법보다 약물-표적 상호작용 및 약물-질병 연관성 예측에서 속도와 정확도 면에서 우수함을 보여준다."