핵심 개념
사전 학습된 대규모 비전-언어 모델과 블랙박스 최적화를 활용하여 요리 과정에서 발생하는 다양하고 모호한 상태 변화를 언어 분석을 통해 연속적으로 인식할 수 있는 방법을 제안한다.
초록
이 연구에서는 요리 로봇을 위한 연속적인 객체 상태 인식 방법을 제안한다. 요리 과정에서 발생하는 식재료의 상태 변화는 연속적이며 복잡하여 수동 프로그래밍으로 쉽게 설명할 수 없다. 따라서 사전 학습된 대규모 비전-언어 모델을 활용하여 언어 분석을 통해 연속적인 상태 변화를 인식하는 방법을 제안한다.
구체적으로는 다음과 같은 과정을 거친다:
- 사전 학습된 비전-언어 모델 중 이미지-텍스트 검색(ITR) 기능을 가진 모델을 활용한다. 이를 통해 현재 이미지와 상태 변화를 설명하는 텍스트 간의 유사도를 연속적으로 계산할 수 있다.
- 다양한 텍스트 프롬프트를 준비하고, 각 프롬프트의 가중치를 블랙박스 최적화를 통해 조정한다. 이를 통해 상태 변화에 더 잘 부합하는 유사도 변화를 얻을 수 있다.
- 유사도 변화를 시그모이드 함수로 피팅하여 상태 변화의 시작과 끝을 자동으로 감지할 수 있다.
이 방법을 통해 수동 프로그래밍이나 신경망 학습 없이도 단일 비전-언어 모델만으로 다양한 상태 변화를 연속적으로 인식할 수 있다. 물 끓이기, 버터 녹이기, 달걀 조리, 양파 볶기 등의 실험을 통해 제안 방법의 효과와 한계를 확인하였다.
통계
물이 끓는 것을 인식할 때 ImageBind 모델에서 OPT 방법의 경우 상태 변화 감지 시점과 실제 끓는 시점의 차이가 약 1초 정도였다.
버터가 녹는 것을 인식할 때 ImageBind 모델에서 OPT 방법의 경우 상태 변화 감지 시점과 실제 녹는 시점의 차이가 약 0.1초 정도였다.
달걀 조리 실험에서는 상태 변화 감지 성능이 제한적이었는데, 이는 달걀 흰자의 색 변화가 크게 일어나는 초기 단계와 이후 달걀 노른자의 미세한 색 변화를 모델이 잘 감지하지 못했기 때문이다.
인용구
"요리 과정에서 발생하는 식재료의 상태 변화는 연속적이며 복잡하여 수동 프로그래밍으로 쉽게 설명할 수 없다."
"사전 학습된 대규모 비전-언어 모델을 활용하여 언어 분석을 통해 연속적인 상태 변화를 인식하는 방법을 제안한다."
"다양한 텍스트 프롬프트의 가중치를 블랙박스 최적화를 통해 조정하여 상태 변화에 더 잘 부합하는 유사도 변화를 얻을 수 있다."