المفاهيم الأساسية
REBORN이라는 새로운 비지도 ASR 프레임워크는 음성 분할 모델과 음소 예측 모델을 반복적으로 훈련하여 음성-텍스트 쌍 데이터 없이도 음성 신호에서 정확한 음소 전사를 생성합니다.
الملخص
REBORN: 비지도 ASR을 위한 반복 훈련 기반 강화 학습 경계 분할 연구 논문 요약
Tseng, L.-H., Hu, E.-P., Chiang, C.-H., Tseng, Y., Lee, H.-Y., Lee, L.-S., & Sun, S.-H. (2024). REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR. Advances in Neural Information Processing Systems, 38.
본 연구는 음성-텍스트 쌍 데이터 없이 음성 신호를 음소 전사로 변환하는 비지도 자동 음성 인식(UASR) 시스템의 성능을 향상시키는 것을 목표로 합니다. 특히, 음성 신호에서 가변 길이 세그먼트 구조와 그 경계를 학습하는 데 어려움을 해결하는 데 중점을 둡니다.