言語クエリを使用して音源を分離するための新しい生成モデルであるFlowSepを提案する。FlowSepは、変分オートエンコーダ(VAE)の潜在空間内で線形流れ軌跡を学習し、事前学習されたVAEデコーダとボコーダを使用して波形を合成する。