Studium, Ausbildung und Beruf

web uni-protokolle.de
 powered by
NachrichtenLexikonProtokolleBücherForenFreitag, 29. August 2014 

Riesige Datenmengen werden langsam eingekocht

19.03.2007 - (idw) Eberhard Karls Universität Tübingen

Bioinformatik

Die aktuelle Proteinausstattung einer Blut- oder Gewebeprobe enthält viele Informationen über Gesundheit oder Krankheit eines Menschen. Einzelne Proteine können sogar als Biomarker bestimmte Erkrankungen anzeigen. Doch fallen bei der Proteinanalyse immense Datenmengen an. Der Bioinformatiker Prof. Oliver Kohlbacher entwickelt Rechenmethoden, mit denen sich Biomarker in diesen großen Datenmengen identifizieren lassen.

Tübinger Bioinformatiker entwickeln Methoden zur rechnerischen Analyse ganzer Proteome

Die Gesamtheit der menschlichen Gene, das Genom, gilt seit dem Jahr 2001 als vollständig entschlüsselt. Damit liegt sozusagen das Buch mit der ganzen genetischen Information aufgeschlagen vor den Wissenschaftlern. Doch wurde schnell klar, dass damit noch gar nicht so viel gewonnen ist. Gene sind Bauanleitungen für Proteine, welche die Wissenschaftler auch lesen können. Doch diese Bauanleitungen allein sagen noch nichts darüber aus, zu welchem Zeitpunkt welche Proteine in welcher Menge in der Zelle gebildet werden. Aufbauend auf dem entschlüsselten Genom ist daher die Proteomforschung entstanden, in der die Proteine in ihrem dynamischen Entstehen und Abbau in den Zellen eines Lebewesens untersucht werden. In einer menschlichen Gewebeprobe oder im Blutserum finden sich zu jedem Zeitpunkt ungefähr 100 000 verschiedene Proteine - die Datenmengen, mit denen Forscher es dabei zu tun bekommen, sind entsprechend riesig. Prof. Oliver Kohlbacher vom Wilhelm-Schickard-Institut für Informatik der Universität Tübingen arbeitet an Computerverfahren, mit denen sich die Datenflut beherrschen lässt. So hat seine Arbeitsgruppe in Zusammenarbeit mit Wissenschaftlern der FU Berlin und der Universität Saarbrücken eine Methode entwickelt, mit der das körpereigene Protein Myoglobin, ein Biomarker in der Herzinfarktdiagnose, deutlich zuverlässiger als bisher bestimmt werden kann.

Proteine haben in den Zellen zahlreiche Funktionen. Sie werden als Baumaterial gebraucht, sind aber auch hochspezialisierte Werkzeuge, die zahlreiche Stoffe auf-, ab- oder umbauen. Die Proteinarten und ihre jeweiligen Mengen in einer Zelle verändern sich ständig. "Zum Beispiel sind im Genom eines Schmetterlings immer auch die Gene für die Raupe und die Puppe enthalten. Zu einer bestimmten Zeit ist aber nur ein Bruchteil der Gene aktiv und wird in Proteine umgesetzt", sagt Oliver Kohlbacher. Es sei deutlich schwieriger, Proteine zu analysieren als Gene. "In der letzten Zeit hat es jedoch einige methodische Durchbrüche gegeben, die die Möglichkeiten stark erweitert haben." Die Massenspektrometrie, eine Methode, mit der Stoffe nach ihrer Masse voneinander getrennt werden können, war lange nur für kleine Moleküle einsetzbar. Nun können auch größere Biomoleküle, wie etwa Proteinbruchstücke, nach ihrer Masse sortiert werden. Zusammen mit weiteren Trennungsmethoden wie der Flüssigchromatografie lassen sich kurze Proteinstücke, so genannte Peptide, auch in großem Maßstab analysieren. Daraus ergeben sich vielfältige neue Anwendungen: Ganze Proteome lassen sich vergleichen - zum Beispiel aus Gewebeproben von gesunden und kranken Menschen. So können Proteine identifiziert werden, die nur in einem der Proteome vorkommen oder deren Menge sich in den beiden Proteomen stark unterscheidet. In manchen Fällen lassen sich so genannte Biomarker identifizieren, Stoffe, die eine bestimmte Erkrankung anzeigen, oder Proteine, die sich als Ansatzpunkt für neue Medikamente eignen könnten.

Ein Zielstoff in Oliver Kohlbachers Arbeitsgruppe war zum Beispiel das sauerstoffbindende Protein Myoglobin. Es versorgt unter anderem auch den Herzmuskel mit Sauerstoff. Es war bereits bekannt, dass die Myoglobinkonzentration im Blutserum in den Stunden unmittelbar nach einem Herzinfarkt deutlich ansteigt. "Die bisher erhältlichen kommerziellen Tests auf Myoglobin liefern sehr ungenaue Ergebnisse. Die EU forderte jedoch, dass die Myoglobinbestimmung standardisiert und eine Referenzmessmethode etabliert werden müsse", erklärt der Wissenschaftler. Er hatte sich das Ziel gesteckt, die Myoglobinmenge im Blutserum absolut bestimmbar zu machen. "Das Blutserum eines Patienten, bei dem das Vorliegen eines Herzinfarkts vermutet wird, ist relativ leicht zu gewinnen. Doch das Myoglobin, das zudem auch beim gesunden Menschen immer vorhanden ist, ist in der Probe mit tausenden von anderen Proteinen gemischt", sagt Kohlbacher. Um die langkettigen Proteine mit Hilfe der Chromatografie und Massenspektrometrie automatisiert analysieren zu können, werden sie zufällig zu Peptiden zerkleinert.

In der Praxis haben er und seine Arbeitsgruppe mit der Gewinnung der Blutproben und der Laborarbeit zur Analyse der Proteine allerdings nichts zu tun. Sie erhalten die Analysedaten von Medizinern und Biochemikern. Doch ohne sie würde die Arbeit dort stecken bleiben. "Die Techniken zur Proteinanalyse erzeugen eine immense Datenflut. Aus einer Probe werden Datenmengen im Bereich von Gigabytes erzeugt, die schon nicht mehr auf eine CD passen würden", sagt Kohlbacher. Aufgabe der Bioinformatiker ist es, die wesentlichen Informationen herauszufischen. "Wir kochen die Daten langsam ein", beschreibt Kohlbacher bildhaft seine Vorgehensweise. Dafür braucht er eine breite Palette an Werkzeugen aus der Informatik. "Bioinformatiker sind nicht an bestimmten Methoden orientiert, sondern an den zu lösenden Problemen", sagt er. Die Datensätze von der Massenspektrometrie ergeben für jedes Peptid hunderte oder tausende von einzelnen Punkten, die es beschreiben. Die Bioinformatiker müssen Modelle finden, die die einzelnen Peptide am besten angenähert darstellen, aber mit einer deutlich geringeren Datenmenge. Schritt für Schritt wird das Datenvolumen reduziert. "Um dafür Rechenanleitungen, so genannte Algorithmen, zu entwickeln, muss man ein gutes Verständnis dafür haben, wie die Daten beschaffen sind, auch wissen, was während des Messvorgangs passiert", sagt der Forscher. Denn die Analyseergebnisse können fehlerhaft sein, jede Messmethode hat eine begrenzte Empfindlichkeit. Oliver Kohlbacher hat neben Informatik auch Chemie studiert. Er sieht einen Vorteil darin, dass er die Laborarbeit aus eigener Erfahrung kennt und sich die Abläufe sowie deren Fehleranfälligkeit besser vorstellen kann.

Doch noch größere Schwierigkeiten liegen in der Art der Proben. "Biologische Systeme sind komplex und unterliegen immer auch natürlichen Schwankungen. Nicht ein Wert, sondern ein ganzer Wertebereich eines bestimmten Stoffs ist bei gesunden Menschen zu finden", erklärt Kohlbacher. Er muss mit statistischen Verfahren arbeiten, die der Spannbreite normaler Werte Genüge tun. "Wir entwickeln Algorithmen, mit denen sich die statistisch relevanten Unterschiede in der Proteinzusammensetzung zum Beispiel zwischen einem gesunden und einem kranken Menschen herausarbeiten lassen." Ziel sei es, schnelle und effiziente Algorithmen zu finden, die möglichst wenig Rechenkapazität binden und mindestens so schnell sind wie die Analyseprozesse im Labor - sonst würden sich dort die unbearbeiteten Daten anhäufen. "Im Moment brauchen wir noch 150 Prozessoren, auf welche die Berechnungen verteilt sind", sagt der Informatiker. Allerdings dauert die Auswertung einer Probe auf den Rechnern nur zwei Stunden, während die in der Entwicklungsphase der Myoglobinmessung parallel durchgeführte manuelle Auswertung zwei Tage Zeit benötigte. Zum Schluss der Auswertung ist das Datenvolumen bis in den Kilobytebereich reduziert. Dabei müssen auch die Peptide, die Bruchstücke längerer Proteine sind, wieder dem richtigen Protein zugeordnet werden. "Da kommt das entzifferte Genom wieder ins Spiel. Die Gene, die Proteinbauanleitungen, und Proteine entsprechen sich. An die Karte des Genoms lassen sich die Peptide sozusagen anhängen und sind damit wieder - meistens eindeutig - dem Protein zugeordnet", sagt Oliver Kohlbacher. (7362 Zeichen)


Nähere Informationen:

Prof. Oliver Kohlbacher
Wilhelm-Schickard-Institut für Informatik
Simulation biologischer Systeme
Sand 14
72076 Tübingen
Tel. 0 70 71/2 97 04 57
Fax 0 70 71/29 51 52
E-Mail oliver.kohlbacher(at)uni-tuebingen(punkt)de

Der Pressedienst im Internet: http://www.uni-tuebingen.de/uni/qvo/pd/pd.html

uniprotokolle > Nachrichten > Riesige Datenmengen werden langsam eingekocht
ImpressumLesezeichen setzenSeite versendenDruckansicht

HTML-Code zum Verweis auf diese Seite:
<a href="http://www.uni-protokolle.de/nachrichten/id/133847/">Riesige Datenmengen werden langsam eingekocht </a>