Grunnleggende konsepter
LLaVA 모델을 기반으로 음식 이미지 분석과 개인 맞춤형 식단 지도를 제공하는 챗봇 '퍼르페서'는 사용자의 관심과 참여를 높이며, 특히 GPT-4 챗봇에 비해 높은 돌봄 지각과 흥미를 이끌어냈다.
Sammendrag
퍼르페서: 미세 조정된 멀티모달 LLaVA 기반 식단 건강 챗봇 연구 논문 요약
본 연구는 사용자에게 개인 맞춤형 식단 지도를 제공하기 위해 개발된 혁신적인 AI 챗봇인 퍼르페서(Purrfessor)를 소개하고 그 성능과 사용자 경험을 평가하는 것을 목표로 한다.
연구팀은 퍼르페서의 성능과 사용자 경험을 평가하기 위해 두 가지 연구를 수행했다. 첫째, 시뮬레이션 평가와 인간 검증을 통해 미세 조정된 모델의 성능을 검증했다. 둘째, 2 (프로필: 봇 vs. 애완동물) x 3 (모델: GPT-4 vs. LLaVA vs. 미세 조정된 LLaVA) 사용자 실험을 통해 퍼르페서(애완동물 + 미세 조정된 LLaVA)가 GPT-4 봇에 비해 사용자의 돌봄 지각(β = 1.59, p = 0.04)과 흥미(β = 2.26, p = 0.005)를 크게 향상시켰음을 확인했다. 또한 사용자 인터뷰를 통해 응답성, 개인화 및 지침 제공과 같은 인터랙션 디자인 세부 사항의 중요성을 강조하며 사용자 참여를 개선하기 위한 요구 사항을 파악했다.
퍼르페서 시스템 구조
사용자 인터페이스: 사용자는 웹 페이지 "Pet vs Bot"를 통해 챗봇과 대화하고, 분석을 위해 이미지를 업로드하고, 식단 조언을 받는다.
사용자 계정 관리: 개인 맞춤형 상호 작용 및 사용자별 권장 사항을 위해 사용자 계정 기능을 제공한다.
서버: Node.js는 프런트 엔드, 데이터베이스 및 AI 모델 간의 데이터 흐름을 조정하는 시스템의 중앙 허브 역할을 한다.
대화 데이터베이스 (MongoDB의 ConversationDB): MongoDB는 사용자 상호 작용 및 채팅 기록을 저장하는 데 사용된다.
클라우드 기반 모델 호스팅: 미세 조정된 LLaVA 모델은 클라우드 서버에 배포되어 시스템에서 복잡한 계산을 수행하고 확장성을 보장한다.
챗봇 미세 조정 방법
LLaVA 모델은 음식 및 영양 관련 데이터에 대해 특별히 학습되지 않았기 때문에 맞춤형 학습 데이터 세트를 사용하여 미세 조정되었다.
학습 데이터 세트는 FoodData Central, Recipe1M 데이터 세트 및 인간이 주석을 단 데이터 세트를 포함한 여러 데이터 소스를 통합하여 구축되었다.
인간이 주석을 단 데이터는 Google 이미지 검색을 사용하여 수집되었으며, GPT-4를 통해 이미지 캡션 및 Q&A 생성에 활용되었다.
LoRA(Low-Rank Adaptation) 기술을 사용하여 계산 요구 사항을 줄여 대규모 모델을 미세 조정했다.