핵심 개념
ASBAR 프레임워크는 동물 포즈 추정과 골격 기반 행동 인식을 통합하여, 야생 환경에서 대형 유인원의 행동을 효과적으로 분류할 수 있다.
초록
ASBAR 프레임워크는 동물 포즈 추정과 골격 기반 행동 인식이라는 두 가지 기계 학습 작업을 통합한다. 이 프레임워크를 사용하여 야생 환경에서 대형 유인원의 행동을 분류하는 실험을 수행했다.
포즈 추정 모듈에서는 OpenMonkeyChallenge 데이터셋을 활용하여 강건한 포즈 추정기를 구축했다. 이를 통해 PanAf 데이터셋의 대형 유인원 포즈를 추출했다.
행동 인식 모듈에서는 추출된 포즈 정보를 입력으로 하는 PoseConv3D 모델을 사용하여 9개 행동 범주를 분류했다. 이 모델은 이전 비디오 기반 방법과 비교할만한 성능을 보였으며, 입력 크기를 약 20배 줄일 수 있었다.
추가적으로 ASBAR 프레임워크의 사용을 돕기 위해 터미널 기반 GUI를 제공하며, 5,440개의 대형 유인원 포즈 주석 데이터도 공개했다.
통계
대형 유인원 행동 분류 모델의 Top1 정확도는 74.98%로, 이전 비디오 기반 방법과 유사한 수준이다.
행동 인식 모델의 입력 크기는 비디오 기반 방법에 비해 약 20배 작다.
인용구
"최근 컴퓨터 비전 기술의 발전으로 동물 행동 인식 시스템을 구축할 수 있게 되었다."
"골격 기반 방법은 비디오 기반 방법에 비해 시각적 환경 변화에 덜 민감하고, 계산 복잡도가 낮다는 장점이 있다."