Conceitos Básicos
MLDGG는 그래프의 도메인 일반화를 위해 구조 학습과 의미적 식별을 교차 다중 도메인 메타 학습과 통합하여 다양한 도메인에서 적응 가능한 일반화를 달성하는 새로운 프레임워크입니다.
Resumo
MLDGG: 그래프에서 도메인 일반화를 위한 메타 학습 (KDD 2025 게재)
본 연구 논문에서는 훈련 중에 대상 그래프에 접근할 수 없는 경우 소스 도메인에서 샘플링된 그래프에서 전이 가능한 지식을 습득하고 대상 도메인의 그래프로 일반화하도록 설계된 새로운 교차 다중 도메인 메타 학습 프레임워크인 MLDGG를 제안합니다.
MLDGG는 그래프 토폴로지 구조와 노드 특징으로 특징지어지는 노드 수준 도메인 일반화 문제를 해결하기 위해 구조 학습기와 표현 학습기라는 두 가지 주요 구성 요소로 구성됩니다. 구조 학습기는 작업과 관련 없는 에지의 부정적인 영향을 완화하고 도메인에서 공유되는 구조 지식을 캡처하여 GNN에서 학습한 표현의 포괄성을 향상시키는 것을 목표로 합니다. 표현 학습기는 의미적 식별을 위해 인과 추론을 활용하여 노드 임베딩에서 도메인 불변 의미 정보와 도메인별 변형 정보를 분리하여 일반화를 더욱 향상시킵니다. 메타 학습의 맥락에서 두 학습기에 대한 메타 매개변수는 지식 전달을 용이하게 하고 대상 도메인 내에서 미세 조정을 통해 그래프에 효과적으로 적응할 수 있도록 최적화됩니다.
구조 학습기
속성과 토폴로지가 모두 있는 그래프 데이터의 경우 가능한 한 포괄적이고 풍부한 노드 표현을 학습하는 방법은 지금까지 탐구되어 온 문제입니다. 한 가지 일반적인 방법은 이웃 노드의 정보를 재귀적으로 집계하여 노드 표현을 학습하는 GNN입니다. 그러나 메시지 전달 메커니즘의 모델을 기반으로 이웃 영역에 대한 작은 노이즈 전파로 인해 표현 품질이 저하될 수 있습니다. 따라서 고품질 그래프 구조를 학습하여 GNN을 최적화합니다. 또한 교차 도메인 그래프 간의 공통 구조적 패턴을 탐색하여 일반화 기능을 개선합니다. 여기서는 그래프 구조 학습기 ft에서 학습한 정제된 그래프 구조 행렬을 A'로 정의합니다. ft는 만족스러운 다운스트림 분류 성능을 제공할 수 있는 최적의 그래프 구조를 생성할 것으로 예상됩니다.
표현 학습기
GNN이 예측을 위해 추상적인 표현을 추출할 수 있는 기능이 있음에도 불구하고 표현은 의미적 요소 s와 변형 요소 v 간의 상관 관계로 인해 무의식적으로 혼합될 수 있습니다. 따라서 모델은 여전히 이 상관 관계를 통해 예측을 위해 도메인별 변형 요소 v에 의존합니다. 그러나 이 상관 관계는 새로운 도메인에서 크게 변경되어 v의 영향이 잘못될 수 있습니다. 따라서 각 노드의 표현은 레이블을 결정하는 도메인 불변 의미적 요소 s와 레이블과 독립적인 도메인별 변형 요소 v의 두 가지 요소로 분리된다고 가정합니다. p(r|s, v)와 p(y|s)는 도메인 간에 불변하며 사전 p(s, v)의 변화는 도메인 변화의 유일한 원인입니다. 위의 인과 생성 원칙에 따라 변이 베이즈를 기반으로 표현 학습기를 개발합니다. 여기서 GNN r에서 학습한 노드의 표현과 레이블 y는 접근 가능한 변수이며 소스 도메인의 기본 표현 p*(r, y)에서 감독된 데이터를 얻습니다.
메타 학습
주어진 모든 소스 그래프에서 θ = {θt, θr}의 좋은 매개변수 초기화를 학습하기 위해 MAML 프레임워크를 사용하여 구조 학습기와 표현 학습기를 통합합니다. 목적 함수는 다음과 같습니다.
L = −LELBO + λrLreg,
여기서 λr은 정규화 손실의 가중치 계수입니다. 각 작업 i에 대해 의미적 인코더 Es의 출력에서 지원 세트 Ti
sup 및 쿼리 세트 Ti
qry를 무작위로 샘플링했습니다.