다중 모달 데이터의 특성을 고려하여 단계적으로 특징을 조정하고 융합함으로써 모델의 성능을 크게 향상시킬 수 있다.
다중 모달 감정 분석을 위해 모달리티 간 상호작용을 효과적으로 학습하고 시간에 따른 변화에 강건한 표현을 학습하는 방법을 제안한다.
다중 모달 대화 감정 인식을 위해 텍스트 모달리티를 주요 감정 정보원으로 활용하고, 시각 및 음향 모달리티를 보조 정보원으로 활용하는 교차 모달 융합 네트워크를 제안한다. 또한 감정 변화 모듈을 도입하여 감정 변화 정보를 추출하고 이를 주 과제 학습에 활용함으로써 감정 변화 상황에서의 성능을 향상시킨다.
다중 모달 인코더를 사용하여 음성과 얼굴 간의 관계를 더 효과적이고 다양하게 학습할 수 있으며, 이를 통해 검증, 매칭, 검색 작업에서 최신 기술 수준을 달성할 수 있다.
다중 모달 데이터로부터 핵심적이고 관련성 있는 정보를 선별적으로 추출하고 압축하는 정보 이론 기반의 계층적 지각 모델을 제안한다.
다중 모달 데이터에서 모달리티 불변 표현, 효과적 모달리티 특정 표현, 비효과적 모달리티 특정 표현을 분리하여 학습함으로써 다중 모달 감정 분석 성능을 향상시킬 수 있다.
CoReS는 상위-하위 계층적 구조를 통해 복잡한 추론 상황에서 정확한 객체 분할을 달성한다.
열화상 이미징과 RGB 이미징을 통합하여 신경 장면 표현을 구축하는 다양한 전략을 제안하고 평가한다.
다중 모달 대형 언어 모델에서 발생하는 과제 간 간섭 문제를 해결하기 위해 LoRA-MoE라는 새로운 프레임워크를 제안한다. LoRA-MoE는 Mixture-of-Experts와 LoRA 기법을 결합하여 각 과제에 특화된 학습 경로를 제공함으로써 간섭 문제를 완화한다.
다중 모달 대형 언어 모델은 시각적 입력에 기반한 응답 생성에 있어 사전 학습 데이터의 편향성으로 인한 문제를 겪고 있다. 이를 해결하기 위해 부트스트랩 선호도 최적화 기법을 제안하여 시각적 정보에 대한 모델의 접지를 향상시킴.