核心概念
単一細胞トランスクリプトーム解析では、大量かつ高次元のデータを自動的に注釈する方法が必要とされている。本研究では、発生生物学の文脈で観察される階層的な構造を利用し、ラベル付きデータとラベルなしデータが重複しない状況下での新規クラス発見を行う手法を提案する。
摘要
本研究では、単一細胞RNA-sequencingによって得られる大量の単一細胞トランスクリプトームプロファイルを自動的に注釈する課題に取り組む。特に、発生生物学の文脈で観察される階層的な構造に着目し、ラベル付きデータとラベルなしデータが重複しない状況下での新規クラス発見を行う手法を提案する。
まず、問題を数学的に定式化し、標準的なクラスタリング基準と、階層的な知識を利用したラベルとクラスターのマッピング基準からなる複合的な目的関数を定義する。次に、この目的関数を最適化するための2つのモデル、階層的k-means (h-k-means)と階層的Gaussian混合モデル (h-GMM)を提案する。
人工データと実験データを用いた評価実験の結果、提案手法は階層的な構造を考慮することで、従来のクラスタリング手法に比べて優れた性能を示すことが分かった。特に、人工データセットでは、クラスタリング精度とラベル推定精度が高い値を示した。一方、実験データセットでは、階層的構造が明確でない場合、提案手法の優位性は限定的であった。今後の課題として、より複雑な設定下での性能向上が挙げられる。
统计
発生過程における細胞分化は、細胞系譜樹と呼ばれる階層的な構造を生み出す。
単一細胞トランスクリプトームデータの次元数は非常に高く(数千~数万次元)、大量のデータが生成される。
提案手法のh-k-meansとh-GMMは、人工データセットでクラスタリング精度(ACC)が0.64-0.90、ラベル推定精度(f1-score)が0.57-0.84を達成した。
実験データセットでは、クラスタリング精度が0.36-0.93、ラベル推定精度が0.03-0.64と、データセットによって性能に差があった。
引用
"単一細胞RNA-sequencingによって得られる大量の単一細胞トランスクリプトームプロファイルを自動的に注釈する課題は重要な問題である。"
"発生生物学の文脈で観察される階層的な構造に着目し、ラベル付きデータとラベルなしデータが重複しない状況下での新規クラス発見を行う手法を提案する。"
"提案手法のh-k-meansとh-GMMは、人工データセットでは優れた性能を示したが、実験データセットでは、データセットによって性能に差があった。"