核心概念
本文提出了一種新的說話人日誌框架,稱為序列到序列神經網路日誌 (SSND),它可以同時用於線上和離線推論,並透過自動說話人檢測和表徵,在不需要事先註冊說話人的情況下,實現高精確度的說話人日誌。
Ming Cheng, Yuke Lin, Ming Li. (2024). Sequence-to-Sequence Neural Diarization with Automatic Speaker Detection and Representation. arXiv preprint arXiv:2411.13849.
本研究旨在提出一個名為 SSND 的新型說話人日誌框架,該框架能夠在線上和離線推論模式下,自動進行說話人檢測和表徵,並實現高精確度的說話人日誌。