核心概念
대규모 언어-비전 모델의 성능 향상을 위해 의미 인식 시각 객체 정보를 활용하여 세부적인 언어-비전 정렬과 이해 능력을 향상시킨다.
摘要
이 논문은 대규모 언어-비전 모델(LVLM)의 성능 향상을 위한 새로운 접근법을 제안한다. LVLM은 언어와 비전 정보를 통합하여 다양한 비전-언어 작업을 수행할 수 있지만, 기존 모델들은 세부적인 시각 객체 정보를 충분히 활용하지 못해 시각적 환각과 사실적 오류가 발생하는 문제가 있다.
이를 해결하기 위해 저자들은 Lyrics라는 새로운 모델을 제안한다. Lyrics는 두 단계의 학습 과정을 거친다. 첫째, 사전 학습 단계에서 다중 과제 학습을 통해 세부적인 언어-비전 정렬을 수행한다. 이때 시각 리파이너 모듈을 활용하여 이미지 태깅, 객체 탐지, 의미 분할 등의 정보를 추출하고 이를 다중 스케일 질의 변환기(MQ-Former)에 주입한다. 둘째, 지시 학습 미세 조정 단계에서는 의미 인식 시각 객체 정보를 활용하여 언어-비전 생성 학습을 수행한다.
실험 결과, Lyrics는 다양한 비전-언어 작업에서 우수한 성능을 보였으며, 특히 세부적인 시각 객체 이해와 추론 능력이 향상된 것으로 나타났다. 이를 통해 Lyrics는 기존 LVLM의 한계를 극복하고 실세계 대화 능력을 향상시킬 수 있음을 보여주었다.
統計資料
4명의 스키어가 눈 덮인 언덕에 서서 휴식을 취하고 있다.
스키어는 어두운 빨간색 패딩 재킷과 검은색 바지를 입고 있다.
스키어의 얼굴에는 붉은 기가 돌고 있어 추운 날씨로 인한 것으로 보인다.
야구 경기에 참여하고 있는 3명의 선수가 있다. 타자는 투수 앞에 서서 타격 자세를 취하고 있고, 포수는 그 뒤에 앉아 있다.
타자의 유니폼에는 "SANTIAGO"라는 문구와 "34"라는 번호가 적혀 있다.
引述
"There are four skiers in the image. They rest on a snow-covered hillside with trees in the background. They are happily posing to take photos."
"The skier is dressed in a dark red padded jacket and black trousers. He stand on his snowboard with a flushed face, possibly caused by the cold weather."
"The batter take a batting gesture and stand in front of the crouching catcher"