본 논문에서는 로봇 수술 교육을 위한 시각적 질문 답변(VQA) 시스템의 중요성을 강조하며, 특히 수술 유형 학습 및 새로운 수술 기구/기술 적응과 같이 끊임없이 진화하는 교육생의 요구 사항을 충족하는 데 중점을 둡니다. 이러한 요구 사항을 해결하기 위해 여러 출처의 순차적 데이터 스트림을 통해 VQA 시스템을 지속적으로 업데이트하는 지속 학습(CL)의 필요성을 제기합니다.
기존 CL 연구는 의료 영상 분석에 적용되었지만, 로봇 수술 분야의 두 가지 중요한 문제, 즉 여러 부서 또는 임상 센터에서 수집한 다양한 수술 작업으로 인한 큰 도메인 변화와 수술 절차 중 수술 기구 또는 활동의 불균일한 존재로 인한 심각한 데이터 불균형을 간과했습니다.
본 논문에서는 다중 모달 대규모 언어 모델(LLM)과 적응형 가중치 할당 방법론을 사용하여 이러한 두 가지 문제를 해결하는 새로운 접근 방식을 제안합니다.
다중 모달 LLM을 추가 교사로 활용하는 새로운 다중 교사 CL 프레임워크를 개발했습니다. LLM의 강력한 일반화 능력은 도메인 변화 및 데이터 불균형이 발생할 때 지식 격차를 해소할 수 있습니다.
복잡한 LLM 임베딩을 CL 프레임워크와 호환되는 로짓으로 변환하는 새로운 데이터 처리 방법을 제시합니다.
LLM의 일반화 능력과 이전 CL 모델의 도메인 전문 지식의 균형을 맞추는 적응형 가중치 할당 접근 방식을 설계했습니다.
새로운 GPT 기반 QA 쌍 생성 방법을 사용하여 새로운 수술 VQA 데이터 세트를 구축했습니다. 임상 이미지에 대한 텍스트 설명을 더 잘 분석하기 위해 고급 퓨샷 학습 방법인 문맥 내 학습(ICL)을 적용했습니다.
광범위한 실험 결과는 제안된 방법이 다른 고급 CL 모델보다 우수함을 입증했습니다. 특히, 제안된 방법은 두 번째로 우수한 모델의 정확도를 t = 2에서 9.56%, t = 3에서 7.17% 향상시켰습니다. 또한, F-점수는 t = 2에서 5.64%, t = 3에서 10.58% 향상되었습니다.
본 논문에서 제안된 LLM 지원 다중 교사 CL 프레임워크는 로봇 지원 수술 교육을 위한 VQA 작업의 성능을 크게 향상시킬 수 있습니다. 이는 도메인 변화 및 데이터 불균형 문제를 효과적으로 해결하고, 이전 지식을 잊지 않고 새로운 지식을 학습할 수 있도록 합니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문