Core Concepts
대규모 언어 모델의 표현력을 활용하여 동작 및 보행 시퀀스에 대한 풍부한 텍스트 설명을 생성하고, 이를 통해 동작 표현과 언어 표현 간의 정렬을 달성한다.
Abstract
이 연구는 대규모 언어 모델(LLM)의 활용 가능성을 탐구한다. LLM을 활용하여 동작 시퀀스와 보행 패턴에 대한 풍부한 텍스트 설명을 생성하고, 이를 통해 동작 표현과 언어 표현 간의 정렬을 달성하고자 한다.
구체적으로 다음과 같은 내용을 다룬다:
BABEL-60 데이터셋을 활용한 동작 인식: LLM을 통해 생성된 텍스트 설명을 활용하여 동작 시퀀스와 언어 표현을 정렬하고, 이를 통해 동작 인식 성능을 향상시킨다.
DenseGait 데이터셋을 활용한 보행 패턴 검색: 개인의 외모 속성에 대한 텍스트 설명을 생성하고, 이를 활용하여 보행 시퀀스를 검색한다. 이를 통해 외모 정보와 보행 패턴 간의 관계를 탐구한다.
연구 결과는 LLM의 활용 가능성을 보여주며, 동작 이해와 멀티모달 정렬, 데이터 증강 등의 분야에서 새로운 가능성을 제시한다.
Stats
BABEL-60 데이터셋에서 제안한 방법론은 Top 1 정확도 52.52%를 달성하여 기존 방법론을 능가한다.
DenseGait 데이터셋에서 외모 속성 기반 보행 시퀀스 검색 시 NDCG@5 지표로 최대 60%의 성능을 보인다.
Quotes
"대규모 언어 모델의 표현력을 활용하여 동작 및 보행 시퀀스에 대한 풍부한 텍스트 설명을 생성하고, 이를 통해 동작 표현과 언어 표현 간의 정렬을 달성한다."
"외모 정보와 보행 패턴 간의 관계를 탐구하여 새로운 가능성을 제시한다."