Grunnleggende konsepter
ExpressEditは、自然言語テキストとスケッチを使ってビデオ編集を行うことができるマルチモーダルなシステムである。システムは、自然言語コマンドから(1)時間的参照、(2)空間的参照、(3)編集操作と設定を解釈し、それに基づいてビデオ編集を実行する。
Sammendrag
本研究は、ビデオ編集における自然言語とスケッチの活用を探索した。まず、10人のビデオ編集者を対象とした予備調査を行い、編集コマンドを自然言語とスケッチで表現する傾向を明らかにした。この知見に基づき、ExpressEditシステムを設計・実装した。ExpressEditは、自然言語テキストとスケッチを入力として受け付け、時間的参照、空間的参照、編集操作と設定を解釈し、それに基づいてビデオ編集を行う。システムは、解釈結果を視覚化し、ユーザーが手動で編集を調整できる機能も提供する。10人の初心者ビデオ編集者を対象とした観察実験の結果、ExpressEditはユーザーの編集意図の表現と実装を支援し、創造性を高めることが示された。
Statistikk
編集コマンドの76%で自然言語テキストが使用された
編集コマンドの44%でスケッチが使用された
時間的参照の解釈精度は0.68、空間的参照の解釈精度は0.56、編集操作の解釈精度は0.82