與連續語音特徵相比,離散語音標記在基於大型語言模型的語義相關任務中表現較差,尤其是在需要細粒度語義理解的任務中,但離散語音標記在訓練效率和數據大小可擴展性方面具有優勢。
dMel 透過直接將梅爾濾波器組能量離散化為區間,實現了一種更簡單高效的語音標記化方法,並在語音辨識和語音合成任務中展現出優異的效能。