Concepts de base
사람의 오디오 설명에 포함된 상세 정보를 분석하고, 이를 기반으로 풍부한 세부 정보를 포함하는 오디오-텍스트 쌍을 자동으로 생성하는 파이프라인을 제안한다.
Stats
사운드 이벤트에 대한 상세 정보를 제공하는 문장이 없습니다.
Citations
"우리는 오디오-텍스트 쌍을 풍부한 세부 정보로 시뮬레이션하기 위한 자동 파이프라인을 제안합니다."
"작은 규모의 시뮬레이션 데이터를 통해 모델이 더 상세한 캡션을 생성할 수 있는 능력을 입증합니다."