핵심 개념
본 논문에서는 구체적인 개념에서 추상적인 개념을 학습하는 다중 모달 생성 모델을 제안하며, 이 모델은 시각 및 언어 정보를 통합하여 계층적 개념 학습을 가능하게 하고, 언어 이해 및 생성 능력을 보여줍니다.
초록
구체적인 것에서 추상적인 것으로: 추상적 개념 학습을 위한 다중 모달 생성 접근 방식
본 연구는 인공지능 에이전트가 인간과 유사한 방식으로 추상적인 개념을 이해하고 조작할 수 있도록 돕는 것을 목표로 합니다. 이를 위해 시각 및 범주형 언어 정보를 통합하여 고차원 추상 개념을 학습하는 다중 모달 생성 모델을 제안합니다.
본 연구에서는 다중 모달 혼합 전문가 변이형 오토인코더(MMVAE) 기반 모델을 사용합니다. 이 모델은 하위 수준의 구체적인 개념을 기반으로 상위 수준의 추상적인 개념을 학습합니다. 예를 들어, "금붕어"와 같은 하위 수준 개념을 결합하여 "물고기"와 같은 기본 수준 개념을 형성하고, 이를 바탕으로 "동물"과 같은 상위 수준 개념을 학습합니다.