Die Autoren betrachten das Problem des Codierens für den Substring-Kanal, bei dem Informationsstrings nur über ihre (Multimengen von) Substrings beobachtet werden. Aufgrund bestehender DNA-Sequenzierungstechniken und Anwendungen in DNA-basierten Speichersystemen hat das Interesse an diesem Kanal in den letzten Jahren zugenommen.
Im Gegensatz zur bestehenden Literatur betrachten die Autoren ein verrauschtes Kanalmodell, bei dem die Information vor der Abtastung ihrer Substrings Rauschen ausgesetzt ist, motiviert durch in-vivo-Speicherung.
Die Autoren untersuchen zwei separate Rauschmodelle, Substitutionen oder Löschungen. In beiden Fällen untersuchen sie Familien von Codes, die für die Fehlerkorrektur verwendet werden können, und präsentieren kombinatorische Schranken für ihre Größen. Durch eine Verallgemeinerung des Konzepts der wiederholungsfreien Strings zeigen sie, dass die zusätzlich erforderliche Redundanz sublinear ist, entweder wenn der Anteil der Fehler in der beobachteten Substringlänge hinreichend klein ist oder wenn diese Länge hinreichend groß ist. Dies legt nahe, dass in diesen Fällen kein asymptotischer Kostenverlust in der Rate durch dieses Kanalmodell entsteht.
Darüber hinaus entwickeln die Autoren einen effizienten Encoder für solche eingeschränkten Strings in einigen Fällen.
Schließlich zeigen sie, wie ein ähnlicher Encoder verwendet werden kann, um die Bildung von Sekundärstrukturen in codierten DNA-Strängen zu vermeiden, auch wenn imperfekte Strukturen berücksichtigt werden.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы