시각-LLM의 객체 위치 파악 능력 향상이 시각 질문 답변 등 다양한 시각-언어 작업에서의 성능 향상으로 이어진다.
시각-언어 모델은 소리와 의미 간의 비임의적 상관관계를 학습하며, 이는 인간의 소리 상징성 현상과 유사하다.
시각-언어 모델의 사전 학습 언어 세트에 내재된 관계 단어 편향을 해소하여 장면 그래프 생성 성능을 향상시킨다.
시각적으로 접지된 음성 모델은 새로운 단어를 익숙한 객체가 아닌 새로운 객체에 매핑하는 상호 배타성 편향을 보인다.
본 연구는 기존 시각 지시 학습 방식의 한계를 극복하고자 자기 질문 기법을 제안한다. 이를 통해 모델이 이미지 내 정보를 더 깊이 있게 이해하고 다양한 질문을 생성할 수 있게 된다.
본 연구는 기존 시각-언어 모델의 한계를 극복하기 위해 자기 질문 기법을 제안한다. 이를 통해 모델이 이미지 내 정보를 효과적으로 활용하고 다양한 질문을 생성할 수 있게 되어 전반적인 시각-언어 이해 능력이 향상된다.
본 연구는 기존 시각-언어 모델의 한계를 극복하기 위해 자기 질문 기법을 제안한다. 이를 통해 모델이 이미지 내 정보를 효과적으로 활용하고 다양한 질문을 생성할 수 있게 되어 전반적인 시각-언어 이해 능력이 향상된다.
본 연구는 시각-언어 사전 학습 모델의 적대적 공격 전이성을 향상시키기 위해 모달리티 간 상호작용을 활용하는 새로운 공격 기법을 제안한다.
시각-언어 모델의 성능 향상을 위한 훈련 없는 지역 안내 방법 소개
대형 시각-언어 모델에서 숫자 환각을 평가하고 완화하기 위한 새로운 방법 소개