Core Concepts
OmniFusion은 사전 학습된 대규모 언어 모델과 시각 모달리티 어댑터를 통합하여 다양한 시각-언어 벤치마크에서 우수한 성능을 달성하는 혁신적인 다중 모달 아키텍처이다.
Abstract
이 보고서는 OmniFusion이라는 새로운 다중 모달 아키텍처를 소개한다. OmniFusion은 사전 학습된 대규모 언어 모델과 시각 모달리티 어댑터를 통합하여 구축되었다. 다양한 아키텍처 설계 원칙과 이미지 인코딩 방법을 평가하여 텍스트와 시각 데이터의 효과적인 결합을 달성하였다.
실험 결과, OmniFusion은 VizWiz, POPE, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU 등 8개의 시각-언어 벤치마크에서 최고 점수를 기록하며 기존 오픈소스 솔루션을 능가하는 성능을 보였다. 또한 가사, 관광, 문화, 의료 등 다양한 도메인에서 상세한 답변을 제공하는 등 뛰어난 범용성을 입증하였다.
OmniFusion의 핵심 혁신은 전체 이미지와 타일 인코딩 전략을 모두 활용하는 유연한 이미지 인코딩 접근법이다. 이를 통해 다양한 시각-언어 벤치마크의 요구사항을 효과적으로 해결할 수 있었다.
보고서는 또한 OmniFusion의 두 단계 학습 파이프라인, 다양한 비전 인코더 성능 비교, 이미지 해상도 확장 실험, 수식 인식 등 다양한 실험 결과를 상세히 다루고 있다. 마지막으로 관련 연구 동향과 향후 연구 방향을 제시한다.
Stats
다양한 시각-언어 벤치마크에서 OmniFusion이 최고 점수를 기록했다.
OmniFusion은 가사, 관광, 문화, 의료 등 다양한 도메인에서 상세한 답변을 제공할 수 있다.
OmniFusion은 전체 이미지와 타일 인코딩 전략을 모두 활용하여 시각-언어 벤치마크의 요구사항을 효과적으로 해결할 수 있다.
Quotes
"OmniFusion은 사전 학습된 대규모 언어 모델과 시각 모달리티 어댑터를 통합하여 구축된 혁신적인 다중 모달 아키텍처이다."
"OmniFusion은 VizWiz, POPE, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU 등 8개의 시각-언어 벤치마크에서 최고 점수를 기록하며 기존 오픈소스 솔루션을 능가하는 성능을 보였다."
"OmniFusion의 핵심 혁신은 전체 이미지와 타일 인코딩 전략을 모두 활용하는 유연한 이미지 인코딩 접근법이다."