本研究では、単一細胞RNA-sequencingによって得られる大量の単一細胞トランスクリプトームプロファイルを自動的に注釈する課題に取り組む。特に、発生生物学の文脈で観察される階層的な構造に着目し、ラベル付きデータとラベルなしデータが重複しない状況下での新規クラス発見を行う手法を提案する。
まず、問題を数学的に定式化し、標準的なクラスタリング基準と、階層的な知識を利用したラベルとクラスターのマッピング基準からなる複合的な目的関数を定義する。次に、この目的関数を最適化するための2つのモデル、階層的k-means (h-k-means)と階層的Gaussian混合モデル (h-GMM)を提案する。
人工データと実験データを用いた評価実験の結果、提案手法は階層的な構造を考慮することで、従来のクラスタリング手法に比べて優れた性能を示すことが分かった。特に、人工データセットでは、クラスタリング精度とラベル推定精度が高い値を示した。一方、実験データセットでは、階層的構造が明確でない場合、提案手法の優位性は限定的であった。今後の課題として、より複雑な設定下での性能向上が挙げられる。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Male... às arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.05937.pdfPerguntas Mais Profundas