Khái niệm cốt lõi
이 논문은 그래프 표현 학습(GRL)을 통해 얼굴 표정 인식(FER)에 적용된 다양한 방법론을 심층적으로 검토하여 FER 분야의 과제와 GRL의 잠재력을 강조합니다.
Tóm tắt
얼굴 표정 인식을 위한 그래프 딥 표현 학습에 대한 설문 조사
이 논문은 얼굴 표정 인식(FER) 작업에 그래프 표현 학습(GRL)을 적용하는 방법을 포괄적으로 검토합니다. 저자는 FER 작업, 그래프 표현 및 GRL의 개념을 소개하는 것으로 시작합니다. 그런 다음 이 작업에 사용할 수 있는 가장 일반적이고 가치 있는 데이터베이스 중 일부를 논의합니다. 또한 그래프 확산, 시공간 그래프 및 멀티 스트림 아키텍처를 포함하여 FER에서 그래프 표현에 대한 유망한 접근 방식을 살펴봅니다. 마지막으로 향후 연구 기회를 파악하고 결론을 제시합니다.
1. 서론
얼굴 표정은 문화적 장벽을 초월하여 의사 소통과 인간 상호 작용에서 중요한 역할을 합니다.
FER(얼굴 표정 인식)은 다양한 맥락에서 감정의 미묘한 차이를 해독하고 반응을 예측하는 데 필수적입니다.
FER은 의료, 교육, 자동차 산업, 마케팅, 로봇 공학, 엔터테인먼트 및 고객 서비스를 포함한 여러 분야에서 응용되므로 혁신의 중요성과 잠재력이 강조됩니다.
역사적으로 FER 기술의 개발은 딥 러닝(DL) 기술, 특히 CNN(컨볼루션 신경망)에 의해 주도되었습니다.
그러나 이러한 방법은 얼굴 표정의 복잡성을 정확하게 모델링하는 데 상당한 어려움을 겪고 있습니다.
이러한 문제로 인해 관계형 및 구조적 데이터를 활용하는 유망한 솔루션으로 GRL(그래프 표현 학습)이라는 새로운 접근 방식이 생겨났습니다.
2. 그래프 표현
그래프는 복잡한 관계 구조를 모델링하는 데 중요한 역할을 합니다.
그래프는 G = (X, E) 형식으로 정의할 수 있습니다. 여기서 X는 정점이라고 하는 유한하고 비어 있지 않은 요소 집합을 나타내고 E는 가장자리라고 하는 X에서 가져온 요소의 순서가 지정되지 않은 쌍 집합을 나타냅니다.
가중 그래프는 비용, 거리 또는 기타 관련 지표와 같은 추가 정보를 추가할 수 있으므로 교통 최적화 또는 소셜 네트워크 분석과 같은 다양한 맥락에서 복잡한 구조를 나타내는 데 특히 유용합니다.
인접 행렬과 가중치 생성은 그래프의 견고성과 일반화 기능을 반영하는 수많은 가능하고 상상할 수 있는 방법으로 창의성을 발휘할 수 있는 여지를 많이 남깁니다.
일반적인 DL 방법은 영역 그리드를 사용하는 반면 그래프 기반 DL은 노드와 가장자리를 사용합니다.
노드는 얼굴 랜드마크, 영역 또는 샘플을 나타낼 수 있습니다.
가장자리는 동일한 주석(즉, 분노, 슬픔 등의 동일한 표현) 또는 눈, 코, 입과 같은 동일한 의미 영역을 가진 두 노드 간의 관계를 표현할 수 있습니다. 또한 영역(눈, 코, 입) 간의 공간적 관계를 표현할 수도 있습니다. 마지막으로 서로 다른 시간에 동일한 영역의 시간적 관계를 나타낼 수 있습니다.
3. 그래프 표현 학습(GRL)
GRL의 목표는 그래프의 고유한 구조적 정보와 속성 정보를 유지하면서 그래프 또는 하위 그래프의 요소를 연속 벡터 공간에 매핑하는 것입니다.
GNN(그래프 신경망)에서 노드 v의 임베딩은 일반적으로 가중치 θ로 매개변수화된 신경망을 사용하여 이웃의 임베딩을 집계하여 반복적으로 업데이트됩니다.
전체 학습 프로세스에는 학습된 임베딩이 그래프의 원하는 속성을 효과적으로 캡처하도록 매개변수 θ를 공동으로 최적화하는 작업이 포함됩니다.
4. 데이터베이스
FER 작업을 위한 데이터베이스는 정적 및 동적의 두 가지 그룹으로 분류할 수 있습니다.
이러한 데이터베이스는 데이터 수집 맥락에 따라 다릅니다. 통제된 실험 조건을 특징으로 하는 '실험실 내' 피험자 또는 복잡하고 통제되지 않은 환경에 사용되어 예측 모델의 정확도가 떨어지는 경우가 많은 '자연스러운' 샘플을 포함할 수 있습니다.
또한 일부 데이터 세트는 '실험실 내' 데이터와 '자연스러운' 데이터를 병합하여 통제된 환경의 단순성과 자연스러운 설정의 복잡성을 결합한 데이터베이스를 만드는 하이브리드 접근 방식을 채택합니다.
5. 최근 방법론
그래프를 사용하여 FER 작업을 처리하는 방법에는 여러 가지가 있습니다. 이 섹션에서는 가장 최근의 유망한 접근 방식 중 일부를 소개하고 설명합니다.
5.1. 그래프 확산
그래프 확산은 GRL에서 그래프의 노드 전체에 정보를 전파하는 데 사용되는 기술입니다. 목표는 직접적인 쌍별 유사성을 넘어 노드 간에 가장자리를 만드는 것입니다.
FER에서 그래프 확산은 일반적으로 서로 다른 도메인에서 얼굴 표정의 표현을 개선하는 데 사용됩니다.
이 접근 방식을 사용하는 대부분의 기사에서는 그래프 확산을 사용하여 보다 강력하고 도메인 불변 모델을 얻습니다.
로컬 및 글로벌 기능과 상호 연결의 균형을 맞춥니다.
구체적으로 이 접근 방식은 일반적으로 소스 데이터 세트(레이블 지정됨)와 대상 데이터 세트(레이블 지정되지 않음)에 대해 각각 하나씩 두 개 이상의 그래프를 만드는 것으로 구성됩니다.
그런 다음 전체적 및 로컬과 같은 다양한 유형의 기능의 상관 관계를 사용하여 서로 다른 도메인에 적응할 수 있는 단일 강력 그래프를 만듭니다.
5.2. 시공간 그래프
동적 데이터 분석의 맥락에서 시공간적 측면은 고려해야 할 방식이자 과제입니다.
이러한 측면을 구현하는 그래프는 공간적 특징과 시간적 특징을 모두 캡처해야 합니다.
이러한 그래프는 종종 노드와 가장자리로 구성됩니다. 여기서 노드는 공간적 엔터티(예: 비디오 기반 FER의 얼굴 랜드마크)를 나타내고 가장자리는 시간이 지남에 따라 이러한 엔터티 간의 공간적 또는 시간적 연결을 나타냅니다.
공간적 차원과 시간적 차원을 모두 통합함으로써 이러한 그래프는 데이터 내에서 복잡한 상호 작용과 변화를 모델링하여 작업에 대한 풍부한 데이터 표현을 제공합니다.
5.3. 듀얼 스트림 그래프
GRL에 대한 또 다른 적절한 접근 방식은 듀얼 스트림 아키텍처입니다.
이러한 아키텍처는 일반적으로 최종 예측을 위해 출력을 병합하기 전에 데이터의 서로 다른 측면 또는 방식을 독립적으로 학습하는 두 개의 병렬 처리 스트림을 포함합니다.
듀얼 스트림 접근 방식은 각 스트림의 강점을 활용하므로 공간적 관계(그래프 표현으로 캡처됨)와 특정 특징(추가 방식으로 캡처됨)이 모두 중요한 FER 작업에서 성능이 향상되는 경우가 많습니다.
6. 연구 기회
FER 분야의 많은 영역을 더 자세히 살펴볼 수 있습니다.
여기에는 다양한 조명 조건에서 인식 최적화, 가림 관리, 얼굴 표정 및 머리 포즈의 변화에 대한 적응이 포함됩니다.
특히 GRL의 기능을 탐구하여 얼굴 특징 간의 복잡하고 역동적인 관계 모델링을 개선하여 다양한 맥락에서 표정을 정확하게 해석하는 모델의 기능을 향상하는 데 특히 관심을 기울여야 합니다.
시공간 데이터를 보다 효율적으로 처리하고, 다양한 머리 포즈에서 얼굴 표정의 인코딩 및 해석을 개선하고, 고급 반지도 및 비지도 학습 방법을 채택하고, 그래프에 대한 데이터 증강 기술을 최적화하는 혁신적인 접근 방식을 개발하는 데 추가 작업을 집중할 수 있습니다.
이러한 이니셔티브는 FER 모델의 일반화 및 견고성을 향상시키는 유망한 방법을 제공합니다.