Core Concepts
단편 영상 유머를 이해하고 설명하기 위해서는 언어적, 시각적 요소를 모두 고려해야 한다.
Abstract
이 연구는 YouTube에서 수집한 10,136개의 단편 유머 영상 데이터셋 ExFunTube를 소개한다. 각 영상에는 유머 포인트의 시간 정보와 설명이 포함되어 있다. 이 데이터셋은 기존 데이터셋과 달리 다양한 도메인의 유머를 포함하며, 언어적, 시각적 요소가 모두 중요한 역할을 한다.
연구진은 영상 내용을 세부적인 텍스트로 변환하는 제로샷 프롬프팅 기법을 제안했다. 이를 통해 대형 언어 모델(LLM)이 영상 유머를 더 잘 설명할 수 있게 되었다. 자동 점수, 설명의 질 실험, 사용자 평가 등 다양한 방식으로 평가한 결과, 제안한 프롬프팅 기법이 LLM의 유머 설명 성능을 크게 향상시킨 것으로 나타났다.
Stats
영상에 등장하는 개가 꽃을 먹는 것은 예상치 못한 행동이어서 웃긴다.
두 개의 개가 모두 꽃을 먹는 것은 웃긴데, 사람의 의도는 단순히 개에게 꽃을 주는 것이었기 때문이다.
개가 사람의 손에서 꽃을 먹는 것은 사람의 과장된 반응 때문에 웃긴다.
Quotes
"Hey Luke, sit. Luke, dandelion. AHHHH!"
"Luke, look what you did to the dandelion."
"AYE! MY DANDELION!"