本文提出了一種新的階層式方法,用於處理單細胞轉錄組數據中的新類別發現問題。在這個問題中,部分數據有標記,部分數據無標記,而且有標記數據和無標記數據的標記集合是不重疊的。
作者提出了兩種新的模型:階層式k-means (h-k-means)和階層式高斯混合模型 (h-GMM)。這些模型利用了數據中的階層結構,通過最小化一個包含聚類損失和階層連續性損失的聯合目標函數來進行優化。
實驗結果表明,在人工生成的數據集和實驗性單細胞轉錄組數據集上,這些階層式方法都能夠顯著優於非階層式的聚類方法。特別是在只有少量無標記數據的情況下,階層式方法的性能接近於上限值,顯示了利用階層結構的優勢。
雖然在實驗數據集上的表現不如人工數據集那麼出色,但這些結果仍然表明,在單細胞轉錄組數據的新類別發現問題中,利用已知的階層結構信息是一個有前景的方向。未來的工作將集中在進一步提高這些方法在更複雜數據集上的性能。
A otro idioma
del contenido fuente
arxiv.org
Consultas más profundas