Core Concepts
비전-언어 모델을 보상 모델로 활용하여 기존 이미지 캡셔닝 모델을 강화학습으로 미세 조정하여 더 자세하고 포괄적인 설명을 생성할 수 있다.
Abstract
이 논문은 비전-언어 모델을 보상 모델로 활용하여 기존 이미지 캡셔닝 모델을 강화학습으로 미세 조정하는 방법을 제안한다.
먼저, 기존 BLIP2 이미지 캡셔닝 모델을 사용하여 이미지에 대한 캡션을 생성한다. 그 다음, CLIP 및 BLIP2-ITM과 같은 비전-언어 모델을 활용하여 생성된 캡션에 대한 보상 점수를 계산한다. 이 보상 점수는 캡션의 세부 사항 수준을 반영한다. 마지막으로, 강화학습 알고리즘인 A2C를 사용하여 모델의 가중치를 업데이트하여 더 높은 보상 점수를 얻는 캡션을 생성하도록 한다.
이 방법을 통해 기존 모델 대비 더 자세하고 포괄적인 캡션을 생성할 수 있다. MS-COCO 데이터셋에서 CLIP Recall 지표가 0.90까지 향상되었다. 또한 생성된 캡션에서 색상, 객체 등 더 많은 세부 사항이 포함되는 것을 확인할 수 있다.
Stats
이미지 캡셔닝 모델의 성능 향상을 위해 비전-언어 모델의 유사도 점수를 활용한다.
생성된 캡션의 자연스러움을 위해 참조 모델의 perplexity 점수를 활용한다.
의미 없는 접두사나 반복적인 단어 사용을 방지하기 위해 특정 패턴의 단어에 대한 페널티를 부여한다.
Quotes
"우리의 방법은 인간 레이블 데이터가 필요하지 않은 비지도 학습 방식이다."
"우리의 방법은 추론 시 기본 모델의 가중치만 교체하면 되므로 추가 계산 오버헤드가 없다."
"BLIP2 모델을 사용하여 MS-COCO 데이터셋에서 0.90의 CLIP Recall 점수를 달성했다."