이 논문은 비전-언어 모델을 보상 모델로 활용하여 기존 이미지 캡셔닝 모델을 강화학습으로 미세 조정하는 방법을 제안한다.
먼저, 기존 BLIP2 이미지 캡셔닝 모델을 사용하여 이미지에 대한 캡션을 생성한다. 그 다음, CLIP 및 BLIP2-ITM과 같은 비전-언어 모델을 활용하여 생성된 캡션에 대한 보상 점수를 계산한다. 이 보상 점수는 캡션의 세부 사항 수준을 반영한다. 마지막으로, 강화학습 알고리즘인 A2C를 사용하여 모델의 가중치를 업데이트하여 더 높은 보상 점수를 얻는 캡션을 생성하도록 한다.
이 방법을 통해 기존 모델 대비 더 자세하고 포괄적인 캡션을 생성할 수 있다. MS-COCO 데이터셋에서 CLIP Recall 지표가 0.90까지 향상되었다. 또한 생성된 캡션에서 색상, 객체 등 더 많은 세부 사항이 포함되는 것을 확인할 수 있다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Maksim Dzabr... ב- arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01911.pdfשאלות מעמיקות