멀티모달 정보(텍스트와 이미지)를 활용하여 알려진 클래스와 알려지지 않은 클래스를 모두 정확하게 분류하는 방법을 제안한다.
초록
이 논문은 일반화된 클래스 발견(GCD) 문제를 다룬다. GCD는 알려진 클래스의 레이블 데이터를 활용하여 알려진 클래스와 알려지지 않은 클래스의 데이터를 모두 정확하게 클러스터링하는 것을 목표로 한다. 기존 GCD 방법들은 시각적 단서만을 활용했지만, 이 논문에서는 텍스트 정보도 활용하는 TextGCD 프레임워크를 제안한다.
TextGCD는 두 단계로 구성된다:
검색 기반 텍스트 생성(RTG) 단계: 다양한 데이터셋의 카테고리 태그와 대형 언어 모델(LLM)의 속성을 활용하여 시각 어휘집을 구축하고, 이를 통해 이미지에 대한 설명적 텍스트를 생성한다.
멀티모달 공동 학습(CCT) 단계: 텍스트 모델과 이미지 모델 간의 차이를 활용하여 상호 학습을 진행하고, 모달리티 간 정렬 전략과 소프트 투표 메커니즘을 도입하여 정확도를 높인다.
실험 결과, TextGCD는 기존 최고 성능 대비 ImageNet-1K에서 7.7%, CUB에서 10.8% 향상된 성능을 보였다. 이는 텍스트 정보를 활용하고 모달리티 간 상호 학습을 수행하는 것이 GCD 문제에 효과적임을 보여준다.
Textual Knowledge Matters
통계
알려진 클래스 데이터는 321,000개, 알려지지 않은 클래스 데이터는 960,000개로 구성된 ImageNet-1K 데이터셋을 사용했다.
CUB 데이터셋에서 알려진 클래스는 100개, 알려지지 않은 클래스는 100개로 구성되어 있다.
인용구
"기존 GCD 방법들은 시각적 단서만을 활용했지만, 인간의 인지 과정은 시각, 청각, 텍스트 등 다양한 모달리티를 활용한다."
"TextGCD는 대형 시각-언어 모델(VLM)을 활용하여 텍스트 정보를 GCD에 주입하고, 텍스트 모델과 이미지 모델 간 공동 학습을 통해 상호 이익을 얻는다."
텍스트 정보를 활용하는 것 외에도 GCD 성능을 향상시키는 다른 방법으로는 다음과 같은 접근 방식이 있을 수 있습니다:
다중 모달리티 데이터 활용: 시각적인 정보와 텍스트 정보 외에도 음성이나 음향과 같은 다른 모달리티 데이터를 활용하여 새로운 범주를 발견하는 데 도움을 줄 수 있습니다. 이러한 다양한 모달리티 데이터를 종합적으로 활용하여 범주 발견 성능을 향상시킬 수 있습니다.
앙상블 학습: 다양한 모델이나 접근 방식을 결합하여 앙상블 학습을 수행함으로써 GCD 성능을 향상시킬 수 있습니다. 서로 다른 모델이나 기술을 결합하여 다양성을 확보하고 더 강력한 예측력을 얻을 수 있습니다.
확률적 그래픽 모델: 베이지안 네트워크나 확률적 그래픽 모델과 같은 방법을 활용하여 데이터 간의 관계를 모델링하고 새로운 범주를 발견하는 데 활용할 수 있습니다. 이러한 모델은 데이터 간의 복잡한 상호작용을 고려하여 범주 발견을 지원할 수 있습니다.
텍스트 정보를 활용하여 GCD 성능을 높이는 것 외에 어떤 다른 방법이 있을까?
텍스트 정보를 활용하는 것 외에도 GCD 성능을 향상시키는 다른 방법으로는 다음과 같은 접근 방식이 있을 수 있습니다:
다중 모달리티 데이터 활용: 시각적인 정보와 텍스트 정보 외에도 음성이나 음향과 같은 다른 모달리티 데이터를 활용하여 새로운 범주를 발견하는 데 도움을 줄 수 있습니다. 이러한 다양한 모달리티 데이터를 종합적으로 활용하여 범주 발견 성능을 향상시킬 수 있습니다.
앙상블 학습: 다양한 모델이나 접근 방식을 결합하여 앙상블 학습을 수행함으로써 GCD 성능을 향상시킬 수 있습니다. 서로 다른 모델이나 기술을 결합하여 다양성을 확보하고 더 강력한 예측력을 얻을 수 있습니다.
확률적 그래픽 모델: 베이지안 네트워크나 확률적 그래픽 모델과 같은 방법을 활용하여 데이터 간의 관계를 모델링하고 새로운 범주를 발견하는 데 활용할 수 있습니다. 이러한 모델은 데이터 간의 복잡한 상호작용을 고려하여 범주 발견을 지원할 수 있습니다.
기존 GCD 방법들이 시각적 단서만을 활용하는 이유는 무엇일까?
기존 GCD 방법들이 주로 시각적 단서만을 활용하는 이유는 다음과 같은 이유가 있을 수 있습니다:
데이터 형태: 대부분의 이미지 데이터는 시각적인 형태로 제공되기 때문에 초기에는 시각적 단서에만 의존하여 범주를 발견하는 것이 일반적이었습니다.
모델 복잡성: 시각적 데이터를 처리하는 모델이 이미 발달되어 있었기 때문에, 초기에는 시각적 단서만을 활용하여 범주를 발견하는 것이 더 간편하고 효과적으로 여겨졌습니다.
데이터 양: 초기에는 시각적 데이터의 양이 텍스트 데이터에 비해 훨씬 많았기 때문에, 모델을 훈련시키기 위해 시각적 단서만을 사용하는 것이 더 효율적으로 여겨졌습니다.
기존 GCD 방법들이 시각적 단서만을 활용하는 이유는 무엇일까?
기존 GCD 방법들이 주로 시각적 단서만을 활용하는 이유는 다음과 같은 이유가 있을 수 있습니다:
데이터 형태: 대부분의 이미지 데이터는 시각적인 형태로 제공되기 때문에 초기에는 시각적 단서에만 의존하여 범주를 발견하는 것이 일반적이었습니다.
모델 복잡성: 시각적 데이터를 처리하는 모델이 이미 발달되어 있었기 때문에, 초기에는 시각적 단서만을 활용하여 범주를 발견하는 것이 더 간편하고 효과적으로 여겨졌습니다.
데이터 양: 초기에는 시각적 데이터의 양이 텍스트 데이터에 비해 훨씬 많았기 때문에, 모델을 훈련시키기 위해 시각적 단서만을 사용하는 것이 더 효율적으로 여겨졌습니다.
TextGCD의 아이디어를 다른 비전 태스크에 적용할 수 있을까?
TextGCD의 아이디어는 다른 비전 태스크에도 적용할 수 있습니다. 예를 들어, 이미지 분류, 객체 감지, 이미지 분할 등의 다양한 비전 태스크에서 텍스트 정보를 활용하여 성능을 향상시킬 수 있습니다. 텍스트 정보를 이미지 분류 모델에 통합하면 모델이 이미지에 대한 더 많은 정보를 이해하고 더 정확한 예측을 할 수 있습니다. 또한, 객체 감지 모델에 텍스트 정보를 추가하면 모델이 이미지 내의 객체를 더 잘 식별하고 분할할 수 있습니다. 따라서 TextGCD의 접근 방식은 다양한 비전 태스크에 적용될 수 있으며, 텍스트 정보를 활용하여 모델의 성능을 향상시키는 데 도움이 될 수 있습니다.