Concetti Chiave
我們提出了一種利用隱馬可夫模型集成(HMM-e)的輕量級方法來進行序列分類,特別是在存在嚴重類別不平衡的情況下。HMM-e 在處理小型或不平衡數據集時具有顯著優勢,並且可以擴展到多類別問題。
Sintesi
本研究提出了一種利用隱馬可夫模型集成(HMM-e)的序列分類方法。HMM-e 通過在隨機選取的數據子集上訓練多個基礎模型,並比較不同模型對序列的似然評分來產生綜合得分,從而實現對序列的分類。
具體來說:
- 我們首先介紹了使用單個HMM進行序列分類的方法,但發現其在處理類別不平衡問題時性能較差。
- 為此,我們提出了HMM-e框架,通過訓練多個基於隨機子集的HMM模型並比較它們的似然評分來產生綜合得分。這種方法可以有效處理不同長度序列的比較問題。
- HMM-e 框架具有良好的生成能力,可用於合成數據生成,並且可以與其他下游分類器(如SVM和神經網絡)相結合,進一步提高性能。
- 我們在基因組分類基準測試中驗證了HMM-e的有效性,特別是在存在嚴重類別不平衡的情況下,HMM-e 顯著優於深度學習基線方法。
Statistiche
在demo human or worm數據集上,HMM-e方法在1:1類別平衡情況下的AUC-ROC和平均精度分別為83.9和84.6,而在50:1類別不平衡情況下分別為87.2和27.5。
在human nontata promoters數據集上,HMM-e+SVM方法在1:1類別平衡情況下的AUC-ROC和平均精度分別為89.5和84.0,而在50:1類別不平衡情況下分別為84.5和11.4。
在human enhancers ensembl數據集上,HMM-e+NN方法在1:1類別平衡情況下的AUC-ROC和平均精度分別為87.4和87.3,而在50:1類別不平衡情況下分別為80.5和15.2。
在demo coding vs intergenomic seqs數據集上,HMM-e+NN方法在1:1類別平衡情況下的AUC-ROC和平均精度分別為96.7和96.6,而在50:1類別不平衡情況下分別為95.1和52.1。