Основные понятия
문화적 요소를 포함하여 이미지에 대한 상세한 설명을 생성하는 프레임워크
Аннотация
이 논문은 문화적 요소를 고려한 이미지 캡션 생성 프레임워크 CIC를 제안한다. CIC는 다음과 같은 과정을 통해 문화적 요소를 포함한 캡션을 생성한다:
문화 카테고리 기반의 질문 생성
건축, 의복, 음식 및 음료, 춤과 음악, 종교 등 5가지 문화 카테고리에 대한 질문을 생성한다.
생성된 질문 중 문화 요소와 관련된 질문을 선별한다.
문화 시각 요소 추출을 위한 Visual Question Answering (VQA)
선별된 문화 질문을 이용하여 VQA를 수행하고, 이를 통해 이미지에 나타난 문화 시각 요소를 추출한다.
이미지에 모든 문화 요소가 나타나지 않을 수 있으므로, 캡션 생성 시 hallucination 문제를 방지하기 위해 캡션 프롬프트에서 추출된 문화 요소만을 활용한다.
문화적 인식 캡션 생성을 위한 프롬프트 설계
캡션 프롬프트, VQA 결과, 지침 등을 결합하여 Large Language Model (LLM)에 전달하여 문화적 요소를 포함한 캡션을 생성한다.
사용자 평가 결과, 제안한 CIC 프레임워크가 기존 모델 대비 문화적 요소를 더 잘 반영한 캡션을 생성하는 것으로 나타났다. 또한 자동 평가 지표인 CLIPScore와 문화 단어 비율 지표에서도 우수한 성능을 보였다.
Статистика
이미지에 전통 의복이 등장하는 경우, 기존 모델은 이를 설명하지 못하지만 제안 모델은 이를 잘 설명한다.
제안 모델은 이미지에 나타난 문화 요소를 약 17% 더 많이 캡션에 포함한다.
Цитаты
"AI 애플리케이션은 모든 사람을 위한 것이어야 한다. AI 시스템과 애플리케이션의 실제 세계 활용이 증가함에 따라 특정 그룹이나 인구에 대한 차별적 행동을 방지하는 것이 점점 더 중요해지고 있다."
"문화는 특정 그룹을 구분하고 집단 구성원의 생활 방식을 나타낸다. 따라서 AI 애플리케이션이 발전함에 따라 다양한 그룹의 문화를 적절히 고려하는 것이 중요하다."