核心概念
骰子圖和多米諾骨牌圖是一種新的數據可視化方法,旨在彌合數據的高級視圖和低級視圖之間的差距,允許在單一視圖中顯示多達四個不同的分類變量,並通過顏色編碼和點大小變化來表示其他信息層。
摘要
在生物科學領域,以吸引人且信息豐富的方式可視化和表示數據對於數據探索和展示至關重要。在單細胞 RNA 測序研究中,我們面臨著檢查不同條件並需要能夠同時評估多個變量的可視化的問題。特別是,跨越多種細胞類型和條件可視化通路分析具有挑戰性,因為我們通常不僅對不同條件下的交叉點感興趣,而且對每個變量的類別也感興趣。現有許多針對高級數據可視化的成熟且出色的解決方案。一個重要的例子是 UMAP 或 PCA 嵌入的散點圖,它們用於可視化底層高維數據的結構。維恩圖 [1] 有助於突出顯示不同條件的交叉點。此外,諸如 UpSet 圖 [2] 之類的方法非常適合可視化定量重疊,並且對於處理經典維恩圖中的許多集合以進行不同的分組而言,是一個巨大的進步。交叉點部分的可擴展性和選擇並非易事。因此,需要更動態的方法 [3]。最後,另一個完善的圖表是圓形圖,它為可視化和量化幾組之間的交叉點提供了很好的選擇 [4]。
雖然所有這些方法都非常適合可視化組的定量重疊,但它們會丟失有關交叉點元素的任何信息。對於定性分析,存在大量圖表和解決方案來突出顯示和顯示數據和檢查條件、細胞類型或單個基因表達的詳細信息。重要的例子包括條形圖或散點圖。例如,火山圖非常適合可視化和突出顯示兩種條件之間顯著失調的基因,或者用於簡單相關性分析的兩個基因的基因表達的簡單散點圖。但是,這些方法再次只能可視化數據的一個方面。它們對於可視化數據的定性細節很有用,但對於數據的高級概述卻沒有用。
在這裡,我們介紹了骰子圖和多米諾骨牌圖,這是一種直观的數據可視化方法,旨在彌合數據的高級視圖和低級視圖之間的差距。該表示允許在骰子圖中顯示最多四個不同的數據維度,並在多米諾骨牌圖中顯示兩倍的數量。這將作為對已建立的繪圖方法的補充。這種表示可以全面概述共享屬性的數量,同時保持集合信息可見。我們將以通路分析為例,展示如何使用和解釋骰子和多米諾骨牌圖。
骰子圖
在不將信息拆分為不同的子圖或丟失分類信息的情況下,顯示高維分類數據具有挑戰性。在這裡,我們能夠在單一視圖中顯示最多四個不同的分類變量。為了強調這一點,我們將以跨不同通路的通路分析為例,其中特徵 (A) 和細胞類型為特徵 (B)。在此示例中,目的是可視化不同細胞類型中跨不同疾病變體 (C) 的通路。最後,骰子圖允許對通路 (D) 保持高級分組(圖 1)。目標是在單一視圖中可視化所有這些信息。根據骰子的側面對不同的變體進行分組,允許用戶一次可視化最多六個不同的組。不同組的顏色可以是分類的,也可以是連續的,因為變異信息已經在點的位置中編碼。點排列是固定的,可以輕鬆概覽組是否存在。顏色可用於通過連續的色標或分類調色板進一步豐富繪圖。這些骰子可以用單獨的背景顏色著色,以向用戶傳達更多信息,在我們的示例中,這表示所檢查通路的更高級別分組。此圖以清晰易懂的方式分解信息。
多米諾骨牌圖
為了進一步擴展二元比較和比較連續變量的信