핵심 개념
다중 모달 에이전트의 강건성을 높이기 위해 입력 정보와 하위 작업 의존성을 고려한 동적 모델 선택 방법을 제안한다.
초록
이 논문은 다중 모달 추론 시나리오에서의 모델 선택 문제를 정의하고, M3 프레임워크를 소개한다. M3는 입력 정보와 하위 작업 의존성을 고려하여 동적으로 모델을 선택함으로써 다중 모달 에이전트의 강건성을 높인다.
구체적으로:
- 기존 모델 선택 방법은 하위 작업 의존성을 고려하지 않아 다중 모달 추론 시나리오에 적합하지 않음을 지적한다.
- M3는 입력 정보와 하위 작업 의존성을 모델링하여 최적의 모델 선택을 수행한다.
- 새로운 벤치마크 데이터셋 MS-GQA를 제안하여 모델 선택 문제를 연구할 수 있는 기반을 마련한다.
- 실험 결과, M3가 다양한 테스트 시나리오에서 강건한 성능을 보이며, 추론 시간 제약 하에서도 우수한 결과를 달성한다.
통계
다중 모달 추론 시나리오에서 기존 모델 선택 방법은 하위 작업 의존성을 고려하지 않아 성능이 낮다.
M3는 입력 정보와 하위 작업 의존성을 모델링하여 기존 방법 대비 2.69% 향상된 성공적 실행률(SER)을 달성한다.
M3는 데이터 누락 시나리오에서도 다른 방법 대비 우수한 성능을 보인다.
M3의 추가 모델 선택 시간은 전체 추론 시간에 비해 무시할 수 있을 정도로 작다.
인용구
"기존 모델 선택 방법은 하위 작업 의존성을 고려하지 않아 다중 모달 추론 시나리오에 적합하지 않다."
"M3는 입력 정보와 하위 작업 의존성을 모델링하여 최적의 모델 선택을 수행한다."
"M3는 다양한 테스트 시나리오에서 강건한 성능을 보이며, 추론 시간 제약 하에서도 우수한 결과를 달성한다."