Sonntag, 24. April 2011

Ein viertes Paradigma der Wissenschaft

Bevor er Ende Januar 2007 spurlos auf See verschwand, hat Jim Gray, seines Zeichens mit schlechten Wikipedia-Artikeln geschlagener Turing-Preisträger, sich mit dem Gedanken beschäftigt, dass datenbasierte Wissenschaft ein viertes Paradigma eben derselben sein könnte beziehungsweise schon ist. Der Gedanke ist in dem Sammelband "The fourth paradigm" ausgeführt.

Mit Paradigma ist hier eine grundlegende Herangehensweise zu wissenschaftlicher Erkenntnis zu gelangen, gemeint. Und wenn er vom vierten redet, was sind dann die ersten drei? Das erste ist in seinen Augen empirische Wissenschaft, also die Natur zu betrachten und daraus Schlüsse zu ziehen, indem man etwa einen Zusammenhang zwischen Mond und Flut beobachtet. Als zweites wäre da theoretische Wissenschaft, bei der theoretische Überlegungen angestellt und mathematische Modelle aufgestellt werden. Zwei herausragende Beispiele wären Newtons Principia Mathematica und die newtonschen Gesetze oder Einsteins spezielle und allgemeine Relativitätstheorie. So weit so gut, bei diesen beiden wird vermutlich niemand wiedersprechen, damit wird man schon in der Schule konfrontiert. Theoretische Wissenschaft nutzt dabei einen Modellierungskreislauf:
  1. Definiere den Teil der Wirklichkeit, der betrachtet werden soll. 
  2. Stelle ein möglichst einfaches mathematisches Modell auf (einen Satz von Gleichungen), das diese Wirklichkeit beschreibt. 
  3. Löse das Modell und schaue, ob es tatsächlich die zu untersuchenden Phänomene beschreibt. Wenn Nein, gehe zu 2. und wähle ein komplexeres Modell. Wenn du das Modell nicht lösen kannst, suche einen Mathematiker der es kann. Wenn der das Modell nicht lösen kann, warte 50 Jahre, bis die Mathematik so weit ist und schreibe unterdessen "wissenschaftliche" Artikel ohne jegliche Relevanz zu einem vereinfachten Modell, das deine Physik nicht beschreibt. 
Sir Godfrey Kneller: Sir Isaac Newton. Konnte das 3-Körper-Problem der Astronomie auch nicht lösen. Ebensowenig das 2-Körper-Problem der Soziologie und starb kinderlos.
Mittlerweile ist man in den Natur- und Ingenieurswissenschaften (Wirtschaftswissenschaftler überspringen in der Regel den Schritt mit der Suche nach dem Mathematiker und gehen direkt zum letzten Teil mit den "wissenschaftlichen" Artikeln) in der Situation, dass die interessierenden Modelle nicht mehr gelöst werden können. Sie sind zu komplex und teilweise konnte sogar nachgewiesen werden, dass gar keine Lösungen hingeschrieben werden können, etwa beim Drei-Körper-Problem, aber auch bei den Navier-Stokes-Gleichungen.

An die Stelle einer exakten Lösung tritt dann die approximierbare Lösung, womit wir beim weniger bekannten dritten Paradigma sind, welches er "Computational Science" nennt. Dies ist erst in den letzten Jahrzehnten aufgekommen ist, und zwar bedingt durch drei Punkte:
  1. Das Aufkommen leistungsfähiger und bezahlbarer Rechner
  2. Die Bereitstellung und drastische Verbesserung numerischer Verfahren, mit denen mathematische Modelle auf diesen Rechnern ausgewertet werden können
  3. Das Problem, dass die interessanten mathematischen Modelle mittlerweile zu komplex sind, als dass sie von Menschen ausgewertet werden könnten
Mit "Computational Science" bezeichnet er also die Nutzung von Computersimulationen, um wissenschaftliche Erkenntnisse zu gewinnen. In den Natur- und Ingenieurswissenschaften ist dies mittlerweile Standard. Ein drittes Paradigma ist es, weil es eine neue Denkweise eröffnet, Phänomene zu betrachten, bei der reale Experimente durch Computersimulationen ersetzt werden. Ferner erweitert es den Modellierungskreislauf um einen weiteren Feedbackloop:
  1. Definiere den Teil der Wirklichkeit, der betrachtet werden soll. 
  2. Stelle ein möglichst einfaches mathematisches Modell auf, das diese Wirklichkeit beschreibt. 
  3. Programmiere ein numerisches Verfahren, um Lösungen der Gleichungen mit einer gewissen Genauigkeit anzunähern (dies nennt sich Computermodell oder numerisches Modell). 
  4. Stelle fest, ob die heutigen Verfahren und Rechner in der Lage sind, das Computermodell zu behandeln. Wenn Nein, gehe zu 3. und wähle eine geringere Genauigkeit. Wenn das nicht funktioniert, gehe zu 2. und vereinfache das Modell.
  5. Löse das Computermodell und schaue, ob es tatsächlich die betrachteten Phänomene beschreibt. Wenn Nein, gehe zu 2. und wähle ein komplexeres Modell. Wenn Du schon vorher das mathematische Modell vereinfacht hast, um das Computermodell überhaupt auswerten zu können, suche Dir einen Numeriker, der Deinen Code anschaut, Dir Tiernamen gibt und ihn in einer Stunde um einen Faktor zehn beschleunigt. Wenn das nicht ausreicht, warte ein paar Jahre, bis entweder die Rechner dank Moore's Law das Problem erledigen können oder die Numeriker effizientere Verfahren bereit stellen. Veröffentliche währenddessen Deine Arbeiten und nenne es "Proof of Concept".
In der Schule wird dieses Paradigma nicht behandelt und im Wikipediaartikel zum mathematischen Modell heißt es banal: "Ein so genanntes Computermodell ist nichts anderes als ein mathematisches Modell, das man mit dem Computer auswertet. Dieser Vorgang wird auch Computersimulation genannt." Man beachte den Link auf die Computersimulation, wirklich kein schönes Beispiel wikipedianischer Autorenkunst.

 
Simulation oder Visualisierung einer X-43A-Scramjet-Simulation? Bild: NASA
Umgekehrt ist vielen Ingenieuren der Unterschied zwischen einer Simulation und einer Visualisierung derselben gar nicht mehr klar, so selbstverständlich sind diese Werkzeuge geworden.

Grey setzt nun noch einen drauf und redet von einem vierten Paradigma, nämlich datenbasierter Wissenschaft. Und zwar so wie Computer es möglich machen, von theoretischen Modellen auf numerische Modelle zu gehen, machen sie es ebenso möglich, von rein empirischen Beobachtungen auf das elektronische Sammeln von Daten mit anschließender Auswertung zu gehen. Dies hat deswegen eine neue Qualität, weil mittlerweile Datenmengen gesammelt werden, die jede Vorstellungskraft übersteigen und außerdem zunehmend Auswerteprogramme und geräte zur Verfügung stehen, mit denen diese Datenmengen nutzbar gemacht werden können. Dies kann in einer einfachen Form Visualisierung am Bildschirm bedeuten, aber auch komplexer sein wie die CAVE (nein, habe ich leider noch nicht erleben können), bei der 3D-Daten in einem echten Raum erfahrbar werden.

Ein krasses Beispiel ist das Planetary Skin Institute. Und zwar liefern NASA-Satelliten ja von jedem Punkt der Erde mindestens alle 24 Stunden ein Bild (naja, manchmal nur von Wolken, aber egal). Diese gigantischen Datenmengen werden gesammelt und erlauben es, nicht nur eine Darstellung der Erdoberfläche zu liefern, sondern insbesondere eine zeitliche Entwicklung der Mengen an Getreide, Wäldern oder Wüsten zu liefern. Und damit sind plötzlich Untersuchungen möglich, die noch vor zehn Jahren völlig unvorstellbar waren.

Und für die dies bis zum Ende geschafft haben:
  • Terry Taos Karrieretip: Schreib auf was Du hast!
  • "Obama's Wars" von Bob Woodward gelesen über den Umgang der Obama-Regierung mit Afghanistan. Am deutlichsten wird, wie unfassbar unfähig die Vorgängerregierung war. Und dass es keinen zufriedenstellenden Ausgang in Afghanistan geben wird. Interessant dazu: Link.
  • Wie bewirbt man ein Luxusklo für 6.400$? So! (Danke an Tim.)

12 Kommentare:

  1. "I dont get it"
    Was genau ist daran jetzt so paradigmatisch? So LHC-Daten in denen das Higgs-Boson schon drin ist, aber aufgrund der Fülle der Daten erst Jahre später "entdeckt" wird? Geht das in die Richtung?
    Wie sieht das dann in der Zukunft aus? Es werden Daten über alles und jedes erhoben und wissenschaftliches Arbeiten reduziert sich auf computergestützte Auswertung digitaler Müllhalden?
    Sind das die Numeriker der Zukunft?

    http://www.faz.net/m/%7BE104B9ED-1EEF-48FC-9F6C-D1DA872CA2B6%7DPicture.jpg

    Ich will eine Maschine, die einen Turing-Test besteht und eine Seed-AI.

    http://de.wikipedia.org/wiki/Turing-Test
    http://de.wikipedia.org/wiki/Seed_AI

    Alles darunter sind IMHO Paradigmenwechsel fürs Feuilleton.

    AntwortenLöschen
  2. Also die Paradigmen so wie ich sie verstehe sind:
    1. Experimente
    2. Theoretische Überlegungen
    3. Numerische Simulationen
    4. Daten durchwühlen
    Die LHC-Daten sind nicht ganz das, sind aber ein gutes Beispiel. Es handelt sich um ein konkretes Experiment, nur mit einer unfassbar komplexen Auswertung. Unfassbar große Datenmengen werden also produziert und deren geschickte Auswertung ist eine wissenschaftliche Leistung.

    Neu ist das dann, wenn ich gar kein datenlieferndes Experiment zu einer bestimmten Hypothese mehr habe, sondern einfach nur Daten zu meinem Thema generiere/generieren lasse, und dann schaue, was sich aus den Daten vielleicht rauslesen lässt. Zu meiner Hypothese generiere ich also kein Experiment, sondern schaue nur noch in den bestehenden Exabyte-Fundus an Daten zum Thema, wühle die durch und gucke ob die Hypothese drinsteckt.

    Für Grey war das ein Thema, weil diese Art, wissenschaft zu treiben auch neue Hardware, neue Software und neue Arten zu publizieren benötigt.

    AntwortenLöschen
  3. Hm...rein akademische Einteilung, die nie-nicht von größeren Bevölkerungsgruppen wahrgenommen wird. Die schaun jetzt grad eine pompöse Veranstaltung einer Operetten-Monarchie, die vollkommen überflüssig ist.

    AntwortenLöschen
  4. Ist wohl so: Dieser Blogpost ist der seit langem am wenigsten gelesene. Hätte ich deswegen lieber was über die Hochzeit schreiben sollen? Da würde man mir wohl die Fachkompetenz absprechen :-)

    AntwortenLöschen
  5. Ich habe mal versucht, hier zu kommentieren. Der Kommentar ist dann aber ein bißchen lang geworden, und dann als Blogpost bei mir gelandet. Sozialwissenschaften. Umgepflügt durch Datenmengen.

    Zur Popularität des Posts: altes Problem. Lustige Fotos von Katzen, kann ich 100 am Tag ansehen, und damit 100 Views produzieren. Solche Posts wie hier, schaffe ich vielleicht drei. Immerhin würde ich eher hierfür bezahlen als für Katzenbilder.

    AntwortenLöschen
  6. http://poupoulab.blogspot.com/2011/04/birchlog.html

    AntwortenLöschen
  7. @Dirk: Spannend! Ich freue mich auf 2030 :-) Ansonsten ist in diesem Buch "The fourth Paradigm" einiges interessantes drin, wenn auch nichts konkret zu Soziologie. Ich habs im Blogpost am Anfang verlinkt.

    @Poupou: Ja, da ist was dran. Ich denke man kann das so sehen, dass sich datenbasierte Wissenschaft zu Experimenten so verhält wie numerische Simulation zu theoretischer Wissenschaft.

    Ansonsten weiß ich gar nicht, was das immer ist mit den Kommentaren? Kann ich da irgendwas machen?

    AntwortenLöschen
  8. Eine andere Kommentarfunktion einfügen. http://www.intensedebate.com/
    Die von Blogger ist IMHO nicht ausgereift.

    AntwortenLöschen
  9. So, ist installiert, ich nehme an dass funktioniert erst bei neuen Blogposts?

    AntwortenLöschen
  10. Ich kann die gut dargestellten Paradiga nachvollziehen. Offen bleibt jedoch in jedem Fall die Bewertung der Relevanz der beschriebenen, modellierten oder modellierten Phänomene. Deshalb wundere ich mich, warum du bei der Spitze gegen die Wirtschaftswissenschaften die genannten Ingenieurswissenschaften herausnimmst. Ein hohes Maß an Genauigkeit und Vorhersagekraft zeugt einzig von wissenschaftlicher Methode. Bei der letzten der drei Fragen "Is it true? Is it new? Is it interesting?" an ein wissenschaftliches Ergebnis nach G. H. Hardy [*] kann auch das vierte Paradigma nicht helfen.

    [*] Ich hab das Originalzitat von G. H. Hardy nicht verifiziert (angeblich in: Halmos: I Want to Be a Mathematician, 1985, S. 119).

    AntwortenLöschen
  11. Das zweite "modelliert" sollte "simuliert" heißen.

    AntwortenLöschen
  12. Die Fragen kannte ich noch gar nicht, interessant. Ansonsten gibts ja in jeder Disziplin gute und schlechte Wissenschaft. Oder meintest Du die "Proofs of concept"? Methodisch gesehen sind die schon interessant, da sie die Arbeit erleichtern, wenns dann richtig losgeht. Ein Beispiel ist die http://de.wikipedia.org/wiki/Direkte_Numerische_Simulation.

    AntwortenLöschen

Creative Commons Lizenzvertrag
Birchlog von P. Birken steht unter einer Creative Commons Namensnennung-Weitergabe unter gleichen Bedingungen 3.0 Deutschland Lizenz.
Beruht auf einem Inhalt unter birchlog.blogspot.com.