本文提出了一種名為 SAT(Segment any Text)的新模型,用於解決現有句子分段方法在處理缺少標點、適應新領域和高效性方面的不足,該模型採用基於子詞的多語言編碼器語言模型,並通過預訓練和監督訓練兩個階段提升性能,在多個語料庫中取得了最先進的結果。