Core Concepts
Praktische Instanzen des Sequenzassemblierungsproblems sind immer in der 'einfachen' Phase lösbar.
Abstract
I. Einführung
Genom-Assemblierung: Rekonstruktion langer genetischer Sequenzen aus kurzen Fragmenten.
Schwierigkeit: NP-schwer, aber mit modernen Technologien und Algorithmen handhabbar.
Formulierung: Kürzester gemeinsamer Superstring (SCS) oder Hamiltonkreis.
Wiederholungen in Genomen erschweren die Assemblierung.
Alternative Ansätze: De-Bruijn-Graphen, String-Graphen.
Keine effizienten Algorithmen für allgemeine Assemblierungsprobleme bekannt.
II. SCS und Sequenzassemblierung
SCS: Kürzester gemeinsamer Superstring.
Ex-novo-Genomrekonstruktion.
Erfolgreiche Lösung des SCS-Problems entspricht der Assemblierung.
III. Erstellung und Auswertung des Datensatzes
Klassifizierung nach Anzahl der Fragmente.
Erstellung synthetischer Chromosomen.
Verwendung von Algorithmen wie Glotón und Velvet.
IV. Erfolgswahrscheinlichkeit und Phasenübergang in der Komplexität
Charakterisierung der Schwierigkeit des Problems.
Definition eines Skalierungsparameters x.
Identifizierung eines kritischen Punktes xc.
Beobachtung von Fluktuationen und Korrelationen.
V. Ein besseres Algorithmus für die schwierige Phase: Der Segment-Swap
Vorstellung des Segment-Swap-Algorithmus.
Effektivität in der schwierigen Phase.
Ergodizität und potenzielle Verbesserungen.
VI. Fazit
Anwendung von Methoden der statistischen Mechanik.
Konstruktion eines Phasendiagramms für das SCS-Problem.
Universelle Bedeutung des Phasenübergangs.
Bedeutung von Velvet im Vergleich zu Glotón.
Schlussfolgerung zur Lösbarkeit des Problems.
Stats
Genome assembly is known to be NP-hard.
The success probability for a given chromosome is calculated.
The segment-swap algorithm is successful in the hard phase.
Quotes
"Praktische Instanzen des Sequenzassemblierungsproblems sind immer in der 'einfachen' Phase lösbar." - L. A. Fernandez et al.