核心概念
GatingTree 是一種新的細胞分群分析方法,它不依賴降維或計算聚類,而是採用路徑分析來識別高維細胞儀數據中的組別特異性特徵,並產生可以直接用於下游實驗(如流式細胞分選)的分群策略。
摘要
文章摘要
本研究論文介紹了一種名為 GatingTree 的新型細胞儀數據分析方法,旨在解決傳統分析方法在重現性和應用於下游實驗方面的局限性。
研究背景
- 流式細胞術和質譜細胞術等細胞儀技術的進步使得能夠同時分析的細胞標記數量顯著增加,對數據分析提出了重大挑戰。
- 傳統的分析方法,如降維技術和計算聚類,雖然很普遍,但由於嚴重依賴於數據的內在結構,因此經常面臨重現性方面的挑戰,阻礙了將其結果直接轉化為可用於下游實驗的分群策略。
GatingTree 方法
- GatingTree 是一種基於路徑分析的方法,它探索多維數據空間以揭示組別特異性特徵,而無需使用降維。
- 該方法採用新穎的指標,包括富集分數和分群熵,以有效識別高維細胞儀數據集中的組別特異性特徵。
GatingTree 的優勢
- 直接適用性: GatingTree 產生的結果可以直接用作連續分群策略,以識別感興趣的細胞群體,從而可以輕鬆地將其整合到實驗室工作流程中。
- 數據完整性: 通過避免依賴於基礎數據結構的方法(如降維技術),GatingTree 保留了數據的自然變異性和完整性。
- 有效處理組合複雜性: GatingTree 旨在有效處理具有大量標記的數據集中固有的組合複雜性,確保分析在計算上可行且穩健。
研究結果
- 通過對模擬和真實細胞儀數據集的分析表明,GatingTree 不僅可以全面識別組別特異性特徵,而且還可以產生可立即用作分群策略的結果,從而可以明確識別細胞群體。
結論
GatingTree 促進了對多維數據空間的全面分析,並為實驗人員提供了實用的連續分群策略,增強了跨實驗比較和下游分析(如流式細胞分選)。
研究方法
GatingTree 的構建
- GatingTree 使用一個比喻性的“烏龜”來系統地導航多維標記空間,從所有樣本中包含具有標記狀態的細胞的“節點”開始。
- “烏龜”根據富集分數和分群熵等指標,選擇性地移動到富集實驗組細胞的節點,從而構建一個分層的分群策略樹狀結構。
富集分數和差異富集
- 富集分數 (E) 量化了實驗組細胞相對於對照組細胞在特定分群中的富集程度。
- 差異富集分數 (∆E) 衡量了在分群樹中添加新標記時富集分數的變化。
分群熵和信息增益
- 分群熵是條件熵的一種變體,用於量化分群條件區分實驗組和對照組的有效性。
- 信息增益量化了在分群樹中從一個分群條件移動到下一個分群條件時,組別分類的改進程度。
研究意義
GatingTree 方法為細胞儀數據分析提供了一種強大的新方法,它能夠識別組別特異性細胞群體,而無需依賴降維或計算聚類。這種方法產生的分群策略可以直接應用於下游實驗,例如流式細胞分選,從而為免疫學和其他領域的研究提供了寶貴的工具。
統計資料
在一個典型的免疫學實驗中,目標是為兩組和兩個器官生成一個包含 10 個重複的數據集,在 4 小時的時間窗口內,每個流式細胞儀樣本的總分析時間約為 6 分鐘。
鑑於每秒 2,000 個事件的採集速率,每個樣本可以分析的目標細胞數量為 7.2 × 10^5 × p,其中 p 代表目標細胞群體的流行率(範圍從 0 到 1)。
Krieg 等人 2018 年的一項質譜細胞儀數據集使用了 24 種標記抗體,每個樣本分析了數千個細胞,大多數分群部分(稱為節點)在深度 6 處顯示出細胞數量耗盡,即 6 個標記的組合。
Hassan 等人 2022 年的一項流式細胞儀數據集使用了 11 種標記抗體,在 5 個標記組合處顯示出最佳的節點豐度。
在深度為 4 的情況下,GatingTree 分析在 213,052 個可能的節點中識別出 64,663 個節點為非耗盡節點。
引述
“傳統方法,如降維技術和計算聚類,雖然很普遍,但由於嚴重依賴於數據的內在結構,因此經常面臨重現性方面的挑戰,阻礙了將其結果直接轉化為可用於下游實驗的分群策略。”
“GatingTree 是一種基於路徑分析的方法,它探索多維數據空間以揭示組別特異性特徵,而無需使用降維。”
“GatingTree 不僅可以全面識別組別特異性特徵,而且還可以產生可立即用作分群策略的結果,從而可以明確識別細胞群體。”