핵심 개념
2D 이미지에서 3D 모델을 활용하여 음식 섭취량을 정확하게 추정할 수 있는 새로운 프레임워크를 제안한다.
초록
이 논문은 2D 이미지에서 3D 모델을 활용하여 음식 섭취량을 추정하는 새로운 프레임워크를 제안한다. 이 프레임워크는 3개의 모듈로 구성되어 있다:
객체 탐지 및 분할 모듈: 입력 이미지에서 음식 객체를 분할하고 분류한다.
포즈 추정 모듈: 입력 이미지에서 카메라와 음식 객체의 3D 포즈를 추정한다.
렌더링 모듈: 추정된 포즈 정보를 활용하여 3D 모델을 렌더링하고, 입력 이미지와 렌더링된 이미지의 면적 비율을 통해 음식 섭취량을 추정한다.
제안 방법은 복잡한 신경망 모델에 의존하지 않고도 우수한 성능을 보인다. 또한 새로운 데이터셋인 SimpleFood45를 소개하여 음식 섭취량 추정 방법을 평가할 수 있는 기반을 마련하였다.
통계
입력 이미지에서 음식 객체가 차지하는 면적은 ˜A 픽셀이다.
렌더링된 이미지에서 음식 객체가 차지하는 면적은 A' 픽셀이다.
음식 객체의 실제 부피는 v mL이다.
음식 객체의 추정 부피는 ˜v mL이다.
음식 객체의 실제 에너지 함량은 e kCal이다.
음식 객체의 추정 에너지 함량은 ˜e kCal이다.
인용구
"2D 이미지에 투영된 3D 음식 객체 정보의 손실은 정확한 섭취량 추정의 주요 과제이다."
"제안 방법은 복잡한 신경망 모델에 의존하지 않고도 우수한 성능을 보인다."