最近、計算生物学における深層学習モデルの使用は急速に増加しており、自然言語処理などの分野の進歩によりさらに増加することが期待されています。しかし、これらのモデルは訓練中に使用されたデータからノイズを学ぶ傾向があり、未知のデータでのパフォーマンスを評価するために一般的に行われるランダムなデータ分割手法は、最近では一般化能力を不確かなものとする可能性があることが示されています。この研究では、生物系列(遺伝子、タンパク質、ゲノム)用にスケーリング可能な機械学習用のSpanSeqデータベースパーティション手法を提案し、ランダムな分割手法や他の制限なしで類似性を制限しない場合と比較してその効果を探求しています。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询