Dieser Artikel von Wikipedia ist u.U. veraltet. Die neue Version gibt es hier. Eine DNA-Sequenzanalyse ist in der Molekularbiologie und Bioinformatik die meist automatisierte computergestützte Bestimmung der und Position von charakteristischen Abschnitten insbesondere Genen in einem DNA-Strang. Die Resultate dieser werden auch Annotationen genannt wobei sich die Sequenzanalyse nicht auf Annonationsmethoden beschränkt.
Die Analyse von DNA-Sequenzen wurde durch die Verfügbarkeit großer genomischer Datenmengen und der Notwendigkeit ihrer Interpretation Viele der für DNA-Sequenzen entwickelten Methoden lassen auch genauso oder mit geringfügigen Modifikationen auf also die Primärstruktur von Proteinen anwenden. Die Methoden die zum überwiegenden den so genannten Stringalgorithmen zuzurechnen sind lassen -bei Vernachlässigung der Biologie-spezifischen Einschränkungen- sogar auf Symbolsequenzen übertragen.
Sequenzanalysen können durch folgende Probleme motiviert
Bei der Sequenzierung eines Genoms fallen Daten in Form tausenden relativ kurzer Sequenzen an
Wie setzt man diese zusammen?
Analoge Gene Gene also deren Proteinprodukte ähnliche Funktionen können in verschiedenen Arten ähnliche Muster aufweisen; homologe Gene können sich im Laufe der Evolution auseinanderentwickeln
Kann man unbekannte Gene im Menschen Kenntnis der homologen Gene in der Maus Wie weit sind die Organismen genetisch voneinander Wieviel Zeit ist seit ihrer Trennung im Stammbaum vergangen?
Introns und Exons weisen unterschiedliche Muster und Statistiken auf sind oft stark konserviert
Lassen sich diese Bereiche allein durch Mustervergleiche und statistische Analyse der n- Tupel -Häufigkeiten automatisch unterscheiden?
Ein großer Teil der genomischen DNA besteht anscheinend funktionsloser Junk-DNA die durch relativ kurze sehr häufig Einheiten ( repeats ) gekennzeichnet sind
Wie filtert man diese heraus damit nicht durch falsch positive Ergebnisse falsche oder irreführende Resultate produzieren?
Eine der häufigsten Problemstellungen ist die Suche nach bestimmten Teilsequenzen in einer Datenbank. kann entweder nach exakten Übereinstimmungen suchen oder allen ungefähren Entsprechungen innerhalb einer bestimmten edit vom Suchstring. Im englischen Sprachraum werden diese zweier Strings sequence alignments genannt was wiederum der ganzen Familie "Alignment"-Algorithmen ihren Namen gab. Der Begriff setzt auch im Deutschen mehr und mehr in Form durch. Die weitaus bekannteste Realisierung von ist der BLAST-Algorithmus .