מושגי ליבה
대형 언어 모델은 풍부한 사전 지식과 강력한 모델 아키텍처를 가지고 있어 동작 인식에 효과적으로 활용될 수 있다.
תקציר
이 논문은 대형 언어 모델을 동작 인식기로 활용하는 새로운 프레임워크 LLM-AR을 제안한다.
- 입력 동작 신호를 "동작 문장"으로 변환하는 언어적 투영 프로세스를 소개한다.
- 이 프로세스에는 "동작 문장"을 인간 언어와 유사하게 만들고 원래 동작 신호를 잘 나타내도록 하는 여러 가지 설계가 포함된다.
- 대형 언어 모델의 사전 학습된 가중치를 그대로 유지하면서 저순위 적응(LoRA) 기법을 통해 "동작 문장"을 이해하도록 한다.
- 다양한 벤치마크에서 제안 방법이 최신 기술 수준을 능가하는 성능을 보여준다.
סטטיסטיקה
대형 언어 모델은 방대한 말뭉치에 걸쳐 사전 학습되어 풍부한 암묵적 지식을 가지고 있다.
제안 방법은 입력 동작 신호를 "동작 문장"으로 변환하여 대형 언어 모델이 이해할 수 있도록 한다.
ציטוטים
"Large language models such as GPT [2] and LLaMA [56] have become quite popular and have been extensively applied in handling various human languages."
"Motivated by this, in this work we are wondering, if we can also treat the large language model as an action recognizer in skeleton-based human action recognition?"