이 논문은 구술 역사 연구를 위한 음성 기술 서비스에 대해 다루고 있다.
주요 내용은 다음과 같다:
BAS의 웹 서비스: BAS는 40개 이상의 언어를 지원하는 다국어 음성 처리 웹 서비스를 제공한다. 채널 분리, 발음 변환, 자동 음성 정렬 등의 서비스를 제공하며, 이를 활용하여 구술 역사 자료의 전사 및 처리를 지원한다.
LINDAT의 솔루션: LINDAT은 웹 기반 자동 음성 인식 엔진 UWebASR를 제공한다. 이 엔진은 영어, 체코어, 슬로바키아어, 독일어 등의 언어를 지원하며, 구술 역사 인터뷰 데이터에 특화된 모델로 fine-tuning되어 있다. 또한 자동 생성된 전사와 자막을 바탕으로 관련 질문을 생성하는 기능을 개발 중이다.
Whisper: OpenAI가 공개한 오픈소스 자동 음성 인식 도구 Whisper는 약 100개 언어를 지원하며, 구술 역사 자료 전사에 활용될 수 있다. Whisper와 관련된 다양한 개선 프로젝트들이 진행 중이다.
남은 과제: 자동 음성 인식 기술은 빠르게 발전하고 있지만, 언어학적 분석을 위한 세부적인 정보(비유창성, 말더듬 등)나 화자 구분 등의 기능은 여전히 개선이 필요하다.
이 논문은 구술 역사 연구를 위한 다양한 음성 기술 솔루션을 소개하고, 향후 발전 방향을 제시하고 있다.
A otro idioma
del contenido fuente
arxiv.org
Consultas más profundas