核心概念
置換ノイズまたは削除ノイズの下で、部分文字列の情報から元の情報を復元するためのコード設計手法を提案する。ある条件の下で、このチャネルモデルによる非対称的な観測に起因する冗長度の増加は漸近的に無視できることを示す。さらに、二次構造の形成を回避するための効率的なエンコーダも提案する。
要約
本論文では、DNA ストレージシステムにおける情報の保存と復元に関する問題を扱う。従来の研究では、情報文字列全体が観測されることを前提としていたが、実際のDNA シーケンシング技術では、文字列の部分文字列しか観測できない。このため、部分文字列からの情報復元が課題となる。
本論文では、置換ノイズまたは削除ノイズが存在する状況を考える。2つのノイズモデルについて、エラー訂正に利用可能な符号族を検討し、その符号サイズの組合せ論的な上界を示す。
繰り返し文字列の一般化概念を用いて、部分文字列長の誤り率が十分小さいか、部分文字列長が十分長い場合には、このチャネルモデルによる冗長度の増加は漸近的に無視できることを示す。さらに、一部のケースでは効率的なエンコーダも提案する。
最後に、二次構造の形成を回避するためのエンコーダも提案する。これは上述のチャネルモデルと密接に関連している。
統計
DNA ストレージシステムでは、情報文字列に置換ノイズや削除ノイズが生じる。
DNA シーケンシングでは、情報文字列全体ではなく、その部分文字列しか観測できない。
このため、部分文字列からの情報復元が課題となる。
引用
"DNA as a medium for data storage offers high density and longevity, far greater than those of electronic media"
"Among its applications, data storage in DNA may offer a protected medium for long-period data storage"
"In particular, it has recently been demonstrated that storage in the DNA of living organisms (henceforth, in-vivo DNA storage) is now feasible"