Referent Prof. Dr. Dr. Thomas Lengauer vom Max-Planck-Institut für Informatik in Saarbrücken.
»Es geht darum, Ordnungsmuster in Datenmengen zu finden«, so fasste Prof. Dr. Helmut Neunzert in der Anmoderation sein Verständnis von Big Data verkürzt zusammen. Referent Prof. Dr. Dr. Thomas Lengauer vom Max-Planck-Institut für Informatik in Saarbrücken ging das Thema aus grundlegender Sicht an. Anschaulich mit Beispielen verfolgt wurden im »Blick über den Tellerrand« Fragen wie: Was ist die Geschichte der Datenanalyse? Was hat sich durch Big Data geändert? Was kann man mit Datenanalyse erreichen? Welche Methoden werden angewandt? Was sind Risiken und Grenzen der Datenanalyse?
»Es geht darum, Ordnungsmuster in Datenmengen zu finden«, so fasste Prof. Dr. Helmut Neunzert in der Anmoderation sein Verständnis von Big Data verkürzt zusammen. Referent Prof. Dr. Dr. Thomas Lengauer vom Max-Planck-Institut für Informatik in Saarbrücken ging das Thema aus grundlegender Sicht an. Anschaulich mit Beispielen verfolgt wurden im »Blick über den Tellerrand« Fragen wie: Was ist die Geschichte der Datenanalyse? Was hat sich durch Big Data geändert? Was kann man mit Datenanalyse erreichen? Welche Methoden werden angewandt? Was sind Risiken und Grenzen der Datenanalyse?
Beispiel aus der Bioinformatik: Wie Data Mining heilen hilft
Im Mittelpunkt des reflektorischen Vortrags und der anschließenden Diskussion stand das Wechselspiel zwischen Datenanalyse und Theoriebildung. Lengauer illustrierte u.a. an einem Praxisbeispiel seiner eigenen Forschergruppe aus dem Bereich der HIV-Therapie: Das HI-Virus verändert sich im Körper des infizierten Patienten sehr schnell, um den Angriffen des Immunsystems des Patienten und der bestehenden Medikamenten-Therapie zu entgehen.
Aus diesem Grund gibt es heute viele verschiedene Medikamente gegen HIV, von denen eine sorgfältig zusammengestellte Auswahl dem Patienten in einer Kombination verabreicht wird. Insgesamt gibt es so über tausend Therapieoptionen. Die Resistenz des Virus gegen ein bestimmtes Medikament ist im viralen Genom codiert, allerdings auf eine Art und Weise, die nicht ohne weiteres für das menschliche Auge ersichtlich ist und die im Labor auch schwer zu messen ist.
Eine große Datenbank ist die Grundlage für die Suche nach vielversprechenden Wirkstoffkombinationen. Sie stellt eine internationale Sammlung von Daten aus Therapieepisoden von HIV-Patienten dar und wird dann mit Data-Mining-Methoden analysiert. Daraus werden statistische Modelle abgeleitet, die, nach Eingabe einer viralen Sequenz, die Resistenz des Virus gegenüber den verfügbaren Medikamenten schätzen. Der Arzt kann dank Data Mining so erfolgreich therapieren. Dies gelingt, obwohl die molekularen Mechanismen der viralen Resistenzentstehung bis heute nicht voll verstanden sind.
Warum das Warum?
Mittels Datenanalyse ist man oft in der Lage, Muster zu finden, die eine hohe Vorhersagekraft haben. Dabei stellt sich die grundsätzliche Frage: Warum brauchen wir dann überhaupt noch Ursachenforschung und Theorie, wenn in Daten alle relevanten Assoziationen enthalten sind und wir über Data-Mining-Verfahren verfügen, die diese herausziehen? Hier betont der Bioinformatiker: »Nicht alles ist, wie es scheint«.
Er nennt es die »Fallen bei statistischer Analyse« und warnt vor »Risiken« und »Suggestivität«. Assoziative Muster suggerieren kausale Zusammenhänge, die jedoch häufig gar nicht wie angenommen bestehen, und können damit in die Irre führen. »Die Kunst der Datenanalyse ist, zu erkennen, was überhaupt in den Daten steckt und was nicht«, so Lengauer. »Hier werden wir uns der Macht, aber auch der Grenzen, der Datenanalyse bewusst«.
Handschlag zwischen Big Data und Theoriebildung
»Wir haben die Möglichkeit, auch bei hoch komplexen Systemen, die wir theoretisch nicht durchdrungen haben, zu Vorhersagen zu kommen«, so der Referent. Der Nutzen dieser Vorhersagen beruht vor allem darauf, dass sie in vielen Fällen hinreichend genau sind. »Gerade, wenn wir kein theoretisches Verständnis haben, ist die Datenanalyse das Mittel zur Entscheidungsunterstützung«. Die Kunst der problemgerechten Datenanalyse besteht dann aber in der geeigneten Kodierung der Eingabe, der richtigen Auswahl der Fehlerfunktion und der Auswahl eines Modells mit hoher Vorhersagekraft.
Lengauer plädiert in seinem Schlusswort für die Datenanalyse als Vorprozess: »Aus wissenschaftlicher Sicht schließen sich Datenanalyse und Theoriebildung nicht aus«. Vielmehr könne die Datenanalyse als systematischer Vorfilter für Untersuchungen eingesetzt werden, indem sie aus einer anfänglich unüberschaubaren Hypothesenvielfalt eine beschränkte Anzahl von vielversprechenden Hypothesen aussucht. In dieser Rolle ist die Datenanalyse oft unverzichtbar. Die Theoriebildung selbst erfolgt dann nach traditioneller Art und zielt darauf, aus der eingeschränkten Hypothesenmenge die zutreffende zu wählen, zu validieren und den unterliegenden Kausalzusammenhang aufzudecken.
Kurz zur Vortragsreihe »Blick über den Tellerrand«
Einmal im Monat öffnet das ITWM die Türen für alle Interessierten und lädt beim »Blick über den Tellerrand« dazu ein, gemeinsam den Horizont zu erweitern. Die interdisziplinäre Vortragsreihe des Felix-Klein-Zentrums für Mathematik präsentiert unterschiedliche Referenten mit verschiedensten Themen. Jeder ist herzlich eingeladen zuzuhören und mitzudiskutieren. Der Eintritt ist frei.