Concepts de base
언어 저장소(LangRepo)는 다중 스케일 텍스트 기반 표현을 통해 대형 언어 모델(LLM)의 문맥 활용도를 높이고 해석 가능성을 제공한다.
Résumé
이 논문에서는 언어 저장소(LangRepo)라는 해석 가능한 표현을 소개한다. LangRepo는 동영상 청크에 해당하는 캡션을 반복적으로 처리하여 다중 스케일의 언어 표현을 생성한다. 쓰기 작업(write-to-repo)에서는 중복 정보를 제거하고 간결한 설명을 생성한다. 읽기 작업(read-from-repo)에서는 다양한 시간적 스케일의 저장소 항목을 요약하여 동영상 VQA(Visual Question Answering)에 활용한다. 실험 결과, 제안 방식은 EgoSchema, NExT-QA, IntentQA, NExT-GQA 벤치마크에서 우수한 성능을 보였다. 또한 입력 길이가 증가해도 안정적인 성능을 유지하는 것으로 나타났다.
Stats
동영상 청크당 캡션 수가 증가할수록 대형 언어 모델(LLM)의 VQA 성능이 감소한다.
EgoSchema 데이터셋에서 제안 방식은 7B 모델 규모에서 60.8%, 12B 모델 규모에서 66.2%의 정확도를 달성했다.
NExT-QA 데이터셋에서 제안 방식은 7B 모델 규모에서 54.6%, 12B 모델 규모에서 60.9%의 정확도를 달성했다.
IntentQA 데이터셋에서 제안 방식은 7B 모델 규모에서 53.8%, 12B 모델 규모에서 59.1%의 정확도를 달성했다.
NExT-GQA 데이터셋에서 제안 방식은 7B 모델 규모에서 Acc@GQA 11.2%, 12B 모델 규모에서 17.1%의 정확도를 달성했다.
Citations
"언어는 컴퓨터 비전에서 두드러진 양상이 되었으며, 특히 다중 모달 LLM의 등장으로 인해 그 중요성이 더욱 커졌다."
"최근 연구에 따르면 입력 길이가 증가할수록 LLM의 효과성이 감소한다."
"해석 가능성은 LLM 시대에 편향과 환각과 같은 문제를 관리하는 데 큰 사회적 영향을 미친다."