이 논문은 구술 역사 연구를 위한 음성 기술 서비스에 대해 다루고 있다.
주요 내용은 다음과 같다:
BAS의 웹 서비스: BAS는 40개 이상의 언어를 지원하는 다국어 음성 처리 웹 서비스를 제공한다. 채널 분리, 발음 변환, 자동 음성 정렬 등의 서비스를 제공하며, 이를 활용하여 구술 역사 자료의 전사 및 처리를 지원한다.
LINDAT의 솔루션: LINDAT은 웹 기반 자동 음성 인식 엔진 UWebASR를 제공한다. 이 엔진은 영어, 체코어, 슬로바키아어, 독일어 등의 언어를 지원하며, 구술 역사 인터뷰 데이터에 특화된 모델로 fine-tuning되어 있다. 또한 자동 생성된 전사와 자막을 바탕으로 관련 질문을 생성하는 기능을 개발 중이다.
Whisper: OpenAI가 공개한 오픈소스 자동 음성 인식 도구 Whisper는 약 100개 언어를 지원하며, 구술 역사 자료 전사에 활용될 수 있다. Whisper와 관련된 다양한 개선 프로젝트들이 진행 중이다.
남은 과제: 자동 음성 인식 기술은 빠르게 발전하고 있지만, 언어학적 분석을 위한 세부적인 정보(비유창성, 말더듬 등)나 화자 구분 등의 기능은 여전히 개선이 필요하다.
이 논문은 구술 역사 연구를 위한 다양한 음성 기술 솔루션을 소개하고, 향후 발전 방향을 제시하고 있다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Chri... alle arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.02333.pdfDomande più approfondite