Kernekoncepter
기존 접근법의 한계를 극복하고자 대규모 언어 모델의 시각적 프로그램 합성 능력을 향상시키는 방법을 제안한다. 기존 접근법은 언어 모델을 고정된 상태로 사용하지만, 제안하는 방법은 언어 모델의 매개변수를 최적화하여 프로그램 합성 정확도를 높인다.
Resumé
이 논문은 대규모 언어 모델의 시각적 프로그램 합성 능력을 향상시키는 방법을 제안한다. 기존 접근법은 언어 모델을 고정된 상태로 사용하여 프로그램을 합성하지만, 이 방법의 한계는 다음과 같다:
- 언어 모델이 사용하는 인지 모듈의 능력과 한계를 정확히 알기 어렵다.
- 언어 모델이 때때로 올바른 프로그램을 생성하지만, 가장 높은 확률로 생성하지 않는 경우가 있다.
이를 해결하기 위해 제안하는 방법은 다음과 같다:
- 기존 비전-언어 태스크의 주석을 활용하여 대략적인 보상 신호를 구축한다.
- 언어 모델을 정책으로 간주하고 강화 학습을 적용하여 시각적 프로그램 합성 능력을 향상시킨다.
- 이 방법을 VisReP(Visually Reinforced Program Synthesis)라고 명명한다.
VisReP은 다음과 같은 실험 결과를 보여준다:
- GQA 데이터셋에서 9% 성능 향상
- Omnilabel 데이터셋에서 5% Macro-F1 향상
- WinoGround와 SugarCrepe 데이터셋에서 각각 10%, 15% 성능 향상
이를 통해 제안하는 방법이 기존 접근법보다 우수한 성능을 보임을 확인할 수 있다.
Statistik
시각적 프로그램 합성 정확도가 GQA 데이터셋에서 9% 향상되었다.
Omnilabel 데이터셋에서 Macro-F1 점수가 5% 향상되었다.
WinoGround 데이터셋에서 10%, SugarCrepe 데이터셋에서 15% 성능 향상이 있었다.