Core Concepts
유전자 발현 데이터와 도메인 지식을 지식 그래프에 통합하여 당뇨병 예측 성능을 향상시킬 수 있다.
Abstract
이 연구는 당뇨병 예측을 위해 다양한 유전자 발현 데이터세트와 도메인 지식을 통합하는 새로운 접근법을 제안한다.
먼저, 유전자 발현 데이터와 단백질 기능 및 상호작용에 대한 도메인 지식을 지식 그래프로 통합한다. 이때 두 가지 방식으로 발현 데이터를 지식 그래프에 포함시킨다: 1) 환자-유전자 링크 기반, 2) 발현값 빈 기반.
다음으로, 지식 그래프 임베딩 기법을 사용하여 환자 표현을 생성한다. 이 표현은 두 가지 방식으로 생성된다: 1) 환자 노드의 직접 임베딩, 2) 가중 평균 유전자 임베딩.
마지막으로, 이렇게 생성된 환자 표현을 분류기의 입력으로 사용하여 당뇨병 여부를 예측한다.
실험 결과, 다중 유전자 발현 데이터세트와 도메인 지식을 통합하는 것이 당뇨병 예측 성능을 향상시킨다는 것을 보여준다. 특히 가중 평균 유전자 임베딩을 사용한 환자 표현이 가장 좋은 성능을 보였다.
Stats
다양한 유전자 발현 데이터세트를 통합하면 당뇨병 예측 성능이 향상된다.
도메인 지식을 포함한 지식 그래프가 당뇨병 예측 성능을 높인다.
Quotes
"유전자 발현 데이터는 당뇨병과 관련된 중요한 경로와 조절 메커니즘을 이해하는 데 도움이 될 수 있다."
"지식 그래프는 생물의학 데이터 통합과 기계 학습 응용 프로그램에서 점점 더 많이 사용되고 있다."