Samstag, 28. Mai 2011

Kollaborative Wissenschaft

Wissenschaft wird immer kollaborativer. Das Hookesche Gesetz konnte Hook noch völlig alleine rauskriegen. Gleichzeitig war es kein Zufall, dass zu der Zeit in den Naturwissenschaften eine Fülle an neuen Resultaten erzielt wurde, nämlich durch die Mitglieder der damals neuen Royal Society. Wissenschaft ist vor allem dann gut, wenn Wissenschaftler den Ideen andere Wissenschaftler ausgesetzt werden. Einstein war nicht etwa die Ausnahme, sondern einfach egozentrisch, als er in seiner Arbeit zur speziellen Relativitätstheorie keine Literatur angab, obwohl Lorentz und Poincaré schon fast alles veröffentlicht hatten und ihnen nur der entscheidende Geistesblitz fehlte.

Heute gibt es Experimente wie am Large Hadron Collider in Cern, bei denen auf den Veröffentlichungen vermutlich 50, vielleicht 100 Leute stehen werden. Die Zeiten, wo einsame Wissenschaftler in ihrem Kämmerlein sitzen, sind vorbei. Das hat viele Gründe. Zum einen gibt es mehr Wissenschaftler als früher. Zum anderen gibt es neue Möglichkeiten der Kommunikation wie Email oder das WWW. Und schließlich sind in vielen Gebieten der Wissenschaft die einfachen Probleme gelöst, viele der heutigen Probleme sind interdisziplinär und erfordern damit inhärent Zusammenarbeit mehrerer Wissenschaftler.

Ein anderes interessantes Beispiel ist das Polymath-Projekt. Dieses wurde von Fields-Medaillen-Träger Timothy Gowers ins Leben gerufen und stark von Fields-Medaillen-Träger Terence Tao unterstützt. Dort wurde ein mathematisches Problem auf einem Blog gestellt und Leute dazu eingeladen, ihren Senf dazuzugeben. Nach kurzer Zeit nahm das ganze Fahrt auf, das Problem war nach ein paar Wochen gelöst und sogar eine etwas allgemeinere Aussage bewiesen. Begleitet wurde das ganze über ein Wiki, auf dem Zwischenergebnisse aufbereitet wurden, um in den hunderten von Kommentaren nicht den Überblick zu verlieren.

Und trotz allem ist Kollaboration in der Wissenschaft nicht das, was sein könnte. Eine gute Zusammenfassung bietet der wirklich sehenswerte TED-Talk von Michael Nielsen:


Ebenfalls interessant ist das Blog Research cycle research, auf das ich über den Vortrag von Daniel Mietchen auf der letzten Wikipiedia Academy gestoßen bin. Wissenschaftler nutzen Werkzeuge wie offene Wikis nicht, wissenschaftliche Ergebnisse werden weiterhin in Form von diskreten Artikeln publiziert, statt dass andere Wissenschaftler kontinuierlich über Forschritt informiert und eingeladen werden, ihre Ideen einzubringen, wissenschaftliche Artikel werden wenig kommentiert und  Daten, Codes und Ergebnisse werden wenig ausgetauscht, sondern vor Zugriff durch andere Wissenschaftler geschützt. 

Es ist nicht so, als ob es nicht Versuche gäbe, das zu ändern. Beispielsweise gibt es zahlreiche wissenschaftliche Wikis, von Leuten gestartet, die für einzelne Disziplinen ein wissenschaftliches Repositorium schaffen wollten. Diese sind aber mittlerweile alle tot.

Es gibt Leute, die OpenSource-Code produzieren, ein Beispiel ist PETSc, ein anderes DEAL II. Ein Großteil der Softwareentwicklung findet aber an den Instituten selbst statt, die ihre Codes geheim halten. Übrigens auch ein Problem bei der Wissenschaftlichkeit: ein Großteil der Artikel in der numerischen Mathematik ist praktisch nicht validierbar, da von Dritten dazu erstmal einige Jahre Codeentwicklung betrieben werden müsste. Wissenschaftlich redlich wäre es, die eigenen Codes offenzulegen.

Was Publikationen angeht, sind OpenAccess-Journals auf dem Vormarsch, aber noch ist es der Standard, etwa bei Elsevier zu publizieren. Ein Unternehmen mit einer traumhaften Rendite, das keine nennenswerte eigene Dienstleistung bringt. Und dadurch, dass es dort ein Bezahlmodell gibt, sind die dort publizierten Artikel für außenstehende nicht einsehbar, was es natürlich schwieriger macht, Ideen zu liefern.

Die Antwort, warum Wissenschaftler die neuen Möglichkeiten so wenig nutzen, ist recht einfach: Im Wissenschaftsbetrieb ist für Karriere weniger die wissenschaftliche Arbeit an sich wichtig, sondern dass die eigene wissenschaftliche Leistung gegenüber dritten dokumentierbar ist. Im wesentlichen geschieht dies dadurch, dass man Artikel schreibt, die in Zeitschriften mit Peer Review erscheinen. In Deutschland ist das sogar im Hochschulrahmengesetz quasi fest geschrieben, ein wesentlicher Punkt in Berufungsverhandlungen sind nämlich die Gutachten, die am Ende des Prozesses über die 3-5 verbleibenden Kandidaten in Auftrag gegeben werden. Basis für diese ist das wissenschaftliche Werk, gegeben durch Zeitschriftenartikel. Die Frage, ob die Person in der Lage ist, Mitarbeiter zu führen spielt ebenso keine Rolle wie Aspekte der Wissenschaftskommunikation. Auch wenn ich der vermutlich meist gelesene Mathematiker meines Alters in ganz Deutschland bin, ich bezweifle, dass dies bei Bewerbungen nützlich sein wird.

Das impliziert mehrere Dinge: Für einen nicht etablierten Wissenschaftler ist es nicht von Vorteil, seine Forschungsergebnisse zu früh zu publizieren, weil dann die Gefahr besteht, dass andere die Sachen aufgreifen und selbst weiter entwickeln. Zu viel Zusammenarbeit mit anderen kann also kontraproduktiv sein. Das bedeutet ebenfalls, dass es nicht von Vorteil ist, eigene Daten zu veröffentlichen oder eigene Codes herauszugeben.

Das zeigt auch, warum das Polymath-Projekt funktioniert hat: Weil Gowers und Tao weltberühmt sind, weil sie sich nicht mehr etablieren müssen, können sie frei von solchen Zwängen offene Wissenschaft betreiben.

Damit ist leider auch klar, dass das Problem nichttrivial ist: Das große Problem ist, wie ich noch sagen kann, ob ein bestimmter Wissenschaftler gut ist, wenn ich die individuelle Leistung nicht mehr so gut belegen kann. Meiner Meinung nach gibt es eine Lösung: Die Berufungsverfahren müssen dann breiter aufgestellt werden, den Kandidaten muss intensiver auf den Zahn gefühlt werden, Assessment Center sollten Standard sein. Dann ist es durchaus möglich, festzustellen, ob jemand in der modernen Wissenschaft, die neben wissenschaftlichen Qualitäten Führungsqualitäten fordert, Organisationstalent auch Teamfähigkeit fordert, etwas bewegen kann. Meiner Meinung nach sogar besser, als wenn man nur die Zeitschriftenartikel betrachtet.

Es gibt noch einen zweiten Weg, wie etwas geändert werden kann: Die wichtigen Wissenschaftsorganisationen müssen an finanzielle Förderung Bedingungen in dieser Hinsicht knüpfen. Wenn die deutsche Forschungsgemeinschaft Geld nur unter der Bedingung gibt, dass die Ergebnisse in Open-Access-Zeitschriften erscheinen, dass Codes und Daten offengelegt werden, dann verändert sich die Wissenschaftslandschaft. Die DFG ist auf dem Weg dahin, Matthias Kleiner hat diese Themen auf dem Schirm und Veränderungen sind sichtbar. Kurioserweise ist der Widerstand von innerhalb der Wissenschaft am größten: Narzissmus und Konservativität sind leider weit verbreitet.

Schließlich ist da noch ein dritter Weg: Nicht etablierte Wissenschaftler sollten einfach machen. Oder zumindest ein bisschen. Sage ich mir zumindest: Den nächsten Artikel, den publizierst Du dann aber in einem Open Access Journal und nicht da wo es für die Karriere am Besten wäre. Und irgendwann veröffentlichst Du Deine Software. Ganz bestimmt...

Und sonst:
  •  Followup von letzter Woche: Das Future Chips Blog (danke an Peter)
  • Chinafarmer ist ein geflügeltes Wort unter World-of-Warcraft-Spielern und die Ausbeutung dieser durch ihre Arbeitgeber nicht anders als auf chinesischen Baustellen. Aber im Gefängnis durch die Wärter?
  • Wie ich das letzte mal schrieb, ist Dirk in der Form seines Lebens. On the receiving end, ist die Inkarnation von Enttäuschung. Also: Neuauflage von 2006 aus, Mavericks gegen Heat. Was krasse Forscher mit Schnittchenorganisateusen in spe im Dezember schon bewundern durften.

Mittwoch, 18. Mai 2011

Mathematiker: Das Ende der Nahrungskette?

Da werden sich die Leser wundern: Mathematiker, Herrscherinnen des Wissenschaftskosmos, Könige der Abstraktion, Heldinnen der Grundlagenforschung irgendetwas anderem Unteran als den eigenen Launen oder dem Drittmittelgeber? Ich weiß, ich weiß, man mag es kaum glauben.

Und streng genommen stimmt es auch nicht, da des bedauerlichen Umstandes von dem ich schreiben möchte, wohl nur die Numeriker etwas wissen, während die Zahlentheoretiker im obersten Stock des Elfenbeinturms einfach nie aus dem Fenster schauen. Es geht um Hardware. Die numerische Mathematik bedient sich Computer, um mathematische Probleme zu lösen. Dabei sind auch beachtliche Erfolge erzielt worden. Hardwaremässig wurde seit 1950 eine Beschleunigung um einen Faktor von 10^9 erzielt (gemeint sind ähnliche Investitionskosten). Dazu kommen für mathematische Probleme noch die Verbesserungen der zugrundeliegenden numerischen Verfahren, was für viele relevante Problemklassen ein Faktorvon 10^5 bis 10^7 ist. Die beiden Sachen multiplizieren sich und so kann ich die Laplace-Gleichung heute 10^16 mal schneller lösen als früher oder, was heute eine Sekunde braucht, hätte 1950 300 Millionen Jahre gebraucht.

Die Hardwareverbesserung wird empirisch durch Moore's Law beschrieben. Und dies kommt nun an eine physikalische Grenze, weil die Dimensionen, auf denen gearbeitet wird, Molekülbreite erreichen. Und auch wenn Intel derzeit einige Stunts macht, wird es keine 20 Jahre mehr dauern, bis die Verbesserungen einzelner Mikroprozessoren das Ende der Fahnenstange erreicht haben. Das wissen natürlich auch die Hardwarehersteller und deswegen gibt es den Trend zur Parallelisierung, also verschiedene Prozessoren in derselben Maschine zu haben, die beispielsweise einen gemeinsamen Arbeitsspeicher haben. Im Supercomputingbereich ist das nichts neues, sondern ganz normal. Auf dem PC-Markt ist das mittlerweile angekommen, jeder Computer den man heutzutage kauft, hat einen Multicore-Prozessor.


NVidia-GeForce-GPU. Wir hams immer gewusst:
Computerspiele führen zu nix gutem!
Bild: Tors via Wikimedia Commons

Neu ist dagegen der Trend, im Scientific Computing Grafikprozessoren (GPUs für Graphical Processor Units) zu nutzen. Und zwar hat sich dank der vielen fleissigen Computerspieler ein riesiger Bedarf nach Grafikhardware entwickelt. Denn was macht Standard-Computergrafik-Software? Sie rechnet aus, ob Teile der Spielfigur vielleicht gerade in einer Wand stecken, sie rechnet aus, was der Spieler jetzt gerade sehen kann und berechnet die entsprechende Grafik, alles basierend auf analytischer Geometrie. Vielleicht löst sie nebenbei noch die Flachwassergleichungen, weil bei denen nettaussehende Oberfächenwellen rauskommen, vor denen sich Spielerinnen versonnen den berechneten Sonnenuntergang betrachten können. Anders gesagt: Im Gegensatz zu einer CPU ist eine GPU für einen einzigen Zweck konzeptioniert: Numbercrunching. Oder nochmal anders gesagt: Für Numerik.

Das wurde Numerikern klar, sie probierten ihre Verfahren auf GPUs auf und berichteten von atemberaubenden Beschleunigungsfaktoren von 1000. Und durch den wachsenden Markt im Bereich der numerischen Strömungsmechanik wurde Nvidia klar, dass sie ihr Geld nicht nur von Computerspielern beziehen müssen, sondern dass da ein komplett neuer Kundenkreis wartet. Und als Nebenbemerkung: Der Gründer und Geschäftsführer Jen-Hsun Huang ist Stanford-Absolvent und aufgrund einer großzügigen Spende ist das neue Ingenieurwissenschaften-Gebäude, in dem auch mein Institut sitzt, nach ihm benannt. Und eines Tages Ende 2010 stand er vor der Tür des Instituts, betrachtete das beschreibende Poster, sagte "Das ist genau das, was ich unterstützen will" und spendete einen GPU-Cluster.

Wie auch immer, Tatsache ist, dass die Beschleunigungsfaktoren von 1000 nur auf zwei Dingen beruhen: Einem Vergleich von Äpfeln und Birnen und dem Nutzen schlechter Codes, die nie für die CPU optimiert wurden. Schaut man genauer hin, was vergleichbare CPUs und GPUs leisten, kommt man auf einen Faktor von 5, wobei die GPU mehr kostet und auch mehr Strom verbraucht. Auch das ist aber nicht der Punkt, an dem Mathematiker wie ich anfangen, doof zu gucken.

Der Punkt ist: Eine handelsübliche CPU ist inhärent sequentiell, es wird also brav ein Befehl nach dem anderen abgearbeitet, in Spezialfällen können die CPUs zwei Dinge gleichzeitig erledigen. Eine GPU ist dagegen inhärent parallel, die macht so genanntes Multithreading und macht einfach mal 1000 Multiplikationen parallel. Und da fangen die Konsequenzen für den Mathematiker an.

Nehmen wir an, ich habe ein Verfahren, bei dem ich warten muss, bis ein Ergebnis da ist, bevor ich das nächste ausrechnen kann. Das klassische Beispiel ist hier das Gauß-Seidel-Verfahren. Dieses liefert näherungsweise Lösungen linearer Gleichungssysteme, indem es mit einer Lösung anfängt, in der ersten Gleichung alle bis auf die erste Unbekannte festhält und dann die erste Unbekannte so wählt, dass die Gleichung stimmt. Dann geht es weiter zur zweiten Gleichung, hält alle Unbekannten bis auf die zweite fest, wobei es für die erste Unbekannte den eben errechneten neuen Wert nimmt und bestimmt die zweite Unbekannte so, dass die zweite Gleichung erfüllt ist. Dadurch ist die erste Gleichung nicht mehr erfüllt! Führt man das bis zur letzten Gleichung durch, hat man einen Näherungsvektor, der unter gewissen Voraussetzungen näher an der Lösung ist als der ursprüngliche. Dieser Zyklus wird nun wiederholt. Klar ist aber: auf der GPU wäre das Verfahren nicht schneller als auf der CPU, weil ich eine Gleichung nach der anderen abarbeiten muss.

Eine Alternative ist das Jacobi-Verfahren. Das macht dasselbe wie Gauß-Seidel, nur werden in jeder Gleichung die Werte der alten Näherung genommen. Dadurch kann ich in jeder Gleichung die neue Iteration gleichzeitig ausrechnen. Wie geschaffen für eine GPU, bzw. im allgemeinem für parallele Rechnungen, im Gegensatz zu Gauß-Seidel.

Und das ist dann das Ende des lamentierens: Elektrotechniker basteln neue Hardware. Informatiker basteln dafür Compiler. Numeriker schauen sich das an, stellen fest dass ihre Verfahren auf der neuen Hardware mit den neuen Compilern nicht mehr funktionieren und fragen sich, ob das die Rache der Informatiker und Elektrotechniker dafür ist, dass sie im Studium Mathe hören mussten.


Und sonst:

Montag, 9. Mai 2011

Früher Orangen, heute Greenbacks

Wie funktioniert eigentlich eine Privatuni? Schwierige Frage, deswegen nehme ich mir etwas leichteres vor und habe mir mal angeschaut, wie als Beispiel die Finanzen von Stanford funktionieren. Zunächst fängt es mit einer Stiftung an, einem Stiftungskapital und einer Satzung. Stanford ist eine steuerbefreite Stiftung kalifornischen Rechts. Die ursprüngliche Spende bestand insbesondere aus einem riesigen Stück Land, nämlich einer ehemaligen Orangenfarm, sowie Geld und in der Satzung ist beispielsweise festgehalten, dass dieses Land nicht verkauft werden darf. Natürlich regelt sie auch, wofür Geld ausgegeben werden darf und wer das entscheidet.

Alles "The Farm": Nach Norden bis zum Creek bzw.
der großen Straße, nach Süden noch wesentlich mehr
Das Stiftungsvermögen beläuft sich nach einem Gewinn von 1.5 Milliarden $ im Jahr 2010 auf 13.9 Milliarden $. Was übrigens 20% weniger sind als noch 2008 vor der Finanzkrise. Sprich: Auch wenn das Land was Stanford gehört, nun mitten im Silicon Valley, einige Milliarden wert ist, ist der Großteil des Stiftungskapitals angelegt und damit wird ordentlich Geld gemacht. Andere Geldquellen sind Pacht von Land, Mieten etwa im Stanford Shopping Center und insbesondere Spenden. Stanford hat 2010 1.1 Milliarden an Spenden von insgesamt 76.000 verschiedenen Spendern verbucht...

Diese Sachen sind aber nicht die einzigen Einnahmequellen, dazu kommen 430 Millionen $ über Studiengebühren, 400 Millionen des Stanford Hospitals und stolze 1.1 Milliarden an Drittmitteln. Die Studiengebühren täuschen etwas, da das Einnahmen sind sowohl durch die klassischen Studiengebühren, als auch Miete in den Wohnheimen, etc. Und demgegenüber stehen 227 Millionen an direkten Transfers an Studenten, auch wieder für Studiengebühren, Miete, etc. Die Drittmittel sind allerdings einfach das: 1.1 Milliarden $ Drittmittel. Also das mehrfache des Gesamtbudgets der Uni Kassel.

Noch ein paar andere Zahlen: Stanford zahlt 2.1 Milliarden an Gehältern, es gibt 10.000 nichtwissenschaftliche Angestellte.

Faszinierend ist, dass das ganze in dieser Größenordnung funktioniert. Stanford operiert letztlich am privaten Markt und es ist beeindruckend, dass es gelingt, hervorragende Wissenschaftler und Studenten in so großer Zahl anzuziehen. Funktionieren tut das ganze meiner Meinung nach auch nur, weil eben so viele Leute gewillt sind, der Uni zu spenden. 75.000 Spender in einem Jahr ist aus einem deutschen Blickwinkel eine unfassbar große Zahl.

Und sonst:
Creative Commons Lizenzvertrag
Birchlog von P. Birken steht unter einer Creative Commons Namensnennung-Weitergabe unter gleichen Bedingungen 3.0 Deutschland Lizenz.
Beruht auf einem Inhalt unter birchlog.blogspot.com.