FoodLMM은 대형 멀티모달 모델(LMM)을 기반으로 하며, 다양한 식품 관련 작업을 수행할 수 있는 통합 모델이다. 이 모델은 음식 분류, 재료 인식, 레시피 생성, 영양 추정, 참조 세그멘테이션, 추론 세그멘테이션 등의 작업을 수행할 수 있다.
모델 아키텍처는 LISA 모델을 기반으로 하며, 특정 작업을 위한 토큰과 헤드를 추가하여 확장되었다. 이를 통해 세그멘테이션 마스크와 영양 정보를 출력할 수 있게 되었다.
모델 학습은 2단계로 진행된다. 1단계에서는 다양한 공개 식품 데이터셋을 활용하여 기본적인 식품 도메인 지식을 주입한다. 2단계에서는 GPT-4를 활용하여 생성한 식품 대화 데이터셋과 추론 세그멘테이션 데이터셋을 통해 모델의 대화 능력과 추론 세그멘테이션 능력을 향상시킨다.
실험 결과, FoodLMM은 다양한 식품 관련 벤치마크에서 최신 기술 수준을 능가하는 성능을 보였다. 특히 참조 세그멘테이션과 추론 세그멘테이션 작업에서 뛰어난 성과를 달성했다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문