비전-언어 기반 모델의 제한적인 일반화 성능을 개선하기 위해 프롬프트 임베딩을 재매개화하는 효율적인 방법을 제안한다.
본 연구는 CLIP 모델의 제로샷 일반화 성능을 향상시키기 위해 클래스 인식 프롬프트 정렬 및 구분 기법을 제안한다. 이를 통해 소스 데이터와 테스트 데이터 간의 분포 차이를 효과적으로 극복할 수 있다.
비전-언어 모델은 텍스트와 이미지 정보를 통합하여 이미지 캡셔닝, 시각적 질문 답변 등의 복잡한 과제를 해결할 수 있는 혁신적인 AI 모델이다.
비전-언어 모델은 성별, 인종 등의 사회적 속성에 대한 편향을 가지고 있으며, 이를 반사실적 예제를 활용하여 탐지하고 완화할 수 있다.
BRAVE는 다양한 비전 인코더의 특징을 효율적으로 통합하여 비전-언어 모델의 성능과 강건성을 향상시킨다.
대규모 비전-언어 모델의 의미적 기반을 향상시키기 위해 피드백 메커니즘을 활용할 수 있다.
복잡한 시각 작업을 해결하기 위해 대형 언어 모델(LLM)을 사용하여 프로그램을 생성하고, 이를 증류하여 단일 비전-언어 모델(VLM)로 구현한다.
Long-CLIP은 CLIP의 장문 텍스트 입력 기능을 향상시켜 장문 텍스트 기반 이미지-텍스트 검색 성능을 크게 개선하고, 텍스트 기반 이미지 생성 능력을 확장한다.
대량 언어 모델을 활용하여 비전-언어 모델의 제로샷 분류 성능을 향상시킬 수 있다.
AI 생성 모델이 생성한 이미지를 향후 모델 학습에 사용하면 편향성이 증폭될 수 있는지 탐구한다.