Core Concepts
MIMOSA는 기존 모노럴 또는 스테레오 오디오를 가진 비디오에 대해 사용자와 AI가 협업하여 공간 오디오 효과를 생성하고 조작할 수 있게 해준다.
Abstract
MIMOSA는 비디오의 공간 오디오 효과를 생성하고 조작할 수 있는 인간-AI 협업 도구이다. 기존 모노럴 또는 스테레오 오디오를 가진 비디오에 대해 MIMOSA는 다음과 같은 기능을 제공한다:
객체 탐지, 깊이 추정, 사운드트랙 분리, 오디오 태깅 등의 단계를 거쳐 각 사운드 소스의 3D 위치를 자동으로 추정한다.
사용자는 2D 및 3D 조작 패널을 통해 추정된 사운드 소스의 위치를 쉽게 수정하고 오디오 속성을 조정할 수 있다. 이를 통해 사용자는 모델 예측의 오류를 수정하고 창의적으로 공간 오디오 효과를 증강할 수 있다.
MIMOSA는 사용자의 워크플로우와 일치하는 해석 가능한 중간 결과를 제공하여, 사용자가 모델 출력을 이해하고 수정할 수 있게 한다. 이는 기존 "블랙박스" 모델 기반 접근법과 차별화된다.
사용자 연구 결과, MIMOSA는 사용성, 유용성, 표현력, 공간 오디오 효과 생성 능력 면에서 우수한 것으로 나타났다. 특히 사용자들은 MIMOSA의 시각적 단서와 직접 조작 기능을 통해 오디오 오류를 쉽게 발견하고 수정할 수 있었다고 언급했다.
Stats
사용자들은 MIMOSA를 통해 생성된 공간 오디오 효과가 몰입감 있다고 평가했다.
MIMOSA의 기본 생성 공간 오디오 효과는 원본 공간 오디오와 유사한 수준의 현실감을 보였다.
사용자가 MIMOSA를 통해 직접 편집한 공간 오디오 효과는 기본 생성 효과보다 현실감이 다소 낮았지만, 여전히 높은 수준의 현실감을 보였다.
Quotes
"MIMOSA를 통해 빠르게 익숙해질 수 있었고, 처음 몇 개의 비디오를 편집한 후에는 편집 과정이 더 빨라졌습니다."
"차가 왼쪽에서 오른쪽으로 움직이는 것을 확실히 느낄 수 있었습니다."
"색소폰을 제 뒤쪽으로 옮겼을 때, 소리가 실제로 그 위치에서 나오는 것 같았습니다."