본 논문은 다차원 범주형 데이터를 단일 보기에 시각화하는 새로운 방법인 Dice plot과 Domino plot을 제안합니다. 특히 생명과학 분야에서는 여러 조건에 대한 생물학적 조절 메커니즘 및 기능의 조절 이상을 확인하는 경로 분석에서 유용하게 활용될 수 있습니다. 기존의 Venn 다이어그램, UpSet plot, Circle plot 등은 그룹의 양적 중복을 시각화하는 데 유용하지만 교차점의 요소에 대한 정보는 제공하지 못합니다. Dice plot과 Domino plot은 이러한 한계점을 극복하고 데이터의 높은 수준 개요와 세부적인 정보를 동시에 제공합니다.
Dice plot은 최대 4개의 범주형 변수를 주사위 모양의 요소를 사용하여 시각화합니다. 각 변수는 주사위의 면에 해당하며, 각 면의 점은 해당 범주에 속하는 데이터 포인트를 나타냅니다. 예를 들어, 경로 분석에서 Dice plot은 여러 세포 유형에 대한 경로, 질병 변이, 경로의 상위 그룹을 한 번에 시각화할 수 있습니다. 각 주사위의 색상은 범주형 또는 연속형 변수를 나타낼 수 있으며, 배경색은 추가 정보를 전달하는 데 사용될 수 있습니다.
Domino plot은 두 개의 Dice plot을 나란히 배치하여 이진 비교 및 연속형 변수 비교를 위한 추가 정보를 제공합니다. 예를 들어, 성별이 다른 여러 조건에 대한 유전자 조절 이상을 비교할 때 유용합니다. Domino plot에서는 점의 크기를 다르게 하여 연속형 정보를 강조할 수 있습니다.
Diceplot 패키지는 R과 Python으로 구현되었으며, CRAN과 pip을 통해 이용 가능합니다. 또한, plotly 백엔드를 통해 웹 인터페이스 및 데이터의 대화형 탐색을 지원합니다.
Diceplot은 데이터의 높은 수준 개요와 세부적인 정보를 연결하는 기존 시각화 방법을 보완하는 유용한 도구입니다. UpSet plot이나 Chord diagram과 같은 일반적인 플롯을 사용할 때 손실되는 정보를 유지하면서 데이터 시각화를 크게 향상시킵니다.
향후 연구에서는 Dice plot과 Domino plot을 다른 시각화 방법과 결합한 대화형 플롯팅 제품군을 웹 서버를 통해 제공할 계획입니다. 이를 통해 R 및 Python 프로그래밍에 익숙하지 않은 연구자도 데이터 시각화를 보다 쉽게 활용할 수 있을 것으로 기대됩니다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問