Core Concepts
ビデオ内の笑いの理由を言語で説明することで、機械がソーシャルインテリジェンスを身につけることを目指す。
Abstract
本研究では、ビデオ内の笑いの理由を解釈する新しいタスク「Video Laugh Reasoning」を提案し、そのためのデータセット「SMILE」を構築した。
ビデオ内の笑いの理由を言語で説明するタスクを定義した。これは、機械がソーシャルインテリジェンスを身につけることを目指す。
887本のビデオクリップと、それぞれの笑いの理由を説明した言語アノテーションからなる「SMILE」データセットを構築した。
大規模言語モデルにマルチモーダルな textual 表現を入力することで、ベースラインモデルを提案した。実験の結果、このモデルは妥当な笑いの理由を生成できることが示された。
データ分析から、笑いの理由には言語的な要素だけでなく、視覚的・音響的な要素も重要であることが明らかになった。
提案手法を他のタスクや野生のビデオにも適用し、その汎用性を示した。
Stats
観客が笑った理由は、登場人物の夸張した表情や高い声の調子によって強調された、量子力学と滑稽なイラストの組み合わせによるものだった。
観客が笑った理由は、登場人物の皮肉な発言と、それを強調する夸張した表情や高い声の調子によるものだった。
Quotes
"Laughter is the shortest distance between two people."
"Even a simple joke is associated with language skills, context knowledge, theory-of-mind, abstract thinking, and social perception, and complex entanglement of these makes laughter reaction arguably the most complex cognitive attribute humankind may have."