Künstliche Intelligenz ist ein Wunder. Sie kann alles und weiß alles. Oder doch nicht? Es gibt sicherlich sinnvolle Einsatzgebiete, aber sie hat eben auch ihre Grenzen. Forschende haben diese Grenzen nun am Beispiel von Extremwetterereignisse mit Daten untermauert.
Ist das noch Physik oder kann das weg? Es ist vielleicht ein harscher Satz in Bezug auf Wetterprognosen mit Hilfe von künstlicher Intelligenz – genauer gesagt: maschinelles Lernens. Wenn wir nicht genau wissen, welche Zusammenhänge ein KI-Modell lernt, kann man schlecht beurteilen, ob es physikalische Zusammenhänge tatsächlich versteht bzw. erkennt oder ob es lediglich nur „super gut rät“ – sagen wir besser sehr gut Muster erkennt.
Es steht außer Frage, dass KI-Modelle äußerst gut Muster und Verhaltensstrukturen innerhalb von Systemen erkennen können. Die aktuelle Veröffentlichung zeigt jedoch auch deutlich die Grenzen dieser Modelle auf. Grenzenlos ist der Einsatz von rein KI-basierter Wettervorhersagemodellen also doch noch nicht. Sie können derzeit Meteorologinnen und Meteorologen nicht ersetzen.
Gehen wir zunächst auf die Vorteile ein. Die klassische Wettervorhersage basiert vereinfacht gesagt darauf, den Globus oder einen Ausschnitt davon in kleine Würfel bzw. Gitterzellen einzuteilen. Es gibt noch andere Ansätze, auf die wir hier jedoch nicht näher eingehen, da wir eine möglichst einfache Vorstellung haben wollen. An den Ecken dieser Würfel sowie den Zellzentren werden physikalische Gleichungen gelöst.
Nun besteht ein Wettermodell nicht nur aus einem einzelnen Würfel mit acht Ecken, sondern aus Millionen solcher Würfeln bzw. Gitterzellen. Mit zunehmender Auflösung, also einem größeren Anzahl der Würfel, verbessert sich die Vorhersage, da kleinere atmosphärische Strukturen besser abgebildet werden können. Gleichzeitig steigt dadurch allerdings der Rechenaufwand stark an. Deswegen benötigen klassische Wettervorhersagemodelle teils mehrere Stunden, um beispielsweise eine 10-Tages-Vorhersage zu berechnen.
Mit Hilfe des maschinellen Lernens konnte diese Rechenzeit auf wenige Minuten verkürzt werden. Die benötigte Rechenzeit einer 10-Tages-Vorhersage hat sich dadurch also massiv verkürzt. Das ist natürlich ein enormer Vorteil, besonders wenn nahende Tropenstürme und andere Extremwetterereignisse möglichst früh erkannt werden sollen.
Und wie ist es mit der Vorhersagegüte aus? Da schnitt in einer Ende 2023 veröffentlichen Studie (Science) das KI-Modell GraphCast gar nicht so schlecht ab. In weiten Teilen sogar besser als das Modell, welches als Goldstandard in der Wettervorhersage gilt: HRES (High Resolution Forecast) des Europäischen Zentrums für Mittelfristvorhersage (ECMWF). In rund 90% der getesteten Fälle schlug GraphCast das klassische Modell HRES.
Sind wir also damit bereits bei „KI, bitte übernehmen Sie“ angekommen? Einen Moment!
Auch wenn die Autoren damals berechtigterweise darauf hingewiesen haben, dass GraphCast ein Werkzeug ist, mit dem man sehr schnell qualitativ gute und auch längerfristige (10 Tage) Vorhersagen durchführen kann, gibt es dann doch Knackpunkte bei der Studie, aber auch beim Grundverständnis der KI.
Beginnen wir beim Vergleich der Daten. Zwar wird von hochaufgelösten Vorhersagen gesprochen, doch bei einer horizontalen Auflösung von rund 31 km kann man nur bedingt von hoher Auflösung sprechen. Erinnern wir uns kurz an die Analogie mit den Würfeln: Die Grundfläche einer einzelnen Gitterzelle entspräche dabei einem Quadrat mit einer Seitenlänge von etwa 31 x 31 Kilometern (km).
Eine Auflösung von 31 km ist mittlerweile eigentlich eher Standard, moderne Modelle liegen bereits deutlich darunter. Das globale Wettermodell des Deutschen Wetterdienstes (DWD) arbeitet mit einer globalen Auflösung von 13km. Und HRES? Das HRES-Modell des ECMWF arbeitet sogar mit einer Auflösung von 9 km, was für ein globales Vorhersagemodell eine enorm hohe Auflösung ist.
Um die Daten überhaupt vergleichen zu können, musste man die Ergebnisse von HRES auf die gröbere Auflösung von GraphCast anpassen. Diese Art des Skalieren führt letztlich auch dazu, dass Information verloren geht. Vereinfacht gesagt „verschmiert“ man quasi die Resultate der 9 x 9 km Gitterzellen auf 31 x 31 km Gitterzellen. Kleinräumige Strukturen, die zuvor noch sichtbar waren, verschwinden dabei teilweise.
Doch warum musste man diesen Schritt überhaupt machen? Das Stichwort lautet: ERA5.
ERA5 gilt gewissermaßen als ein weiterer Goldstandard – allerdings im Bereich der Reanalyse. Beobachtungsdaten liegen in der Meteorologie entweder als Punktmessungen (z.B. Stationsdaten) vor, oder sind indirekte Messungen und liegen flächenhaft vor (z.B. Satellitendaten). Eine Reanalyse kombiniert diese Beobachtungen nachträglich mit einem numerischen Wettermodell. Dabei werden möglichst viele verfügbare Messdaten eingebunden, um den dreidimensionalen Zustand der Atmosphäre möglichst realistisch und physikalisch konsistent wie nur möglich zu rekonstruieren.
Der große Vorteil: Statt einzelner Messpunkte oder isolierter Satellitenbeobachtungen erhält man mit einer Reanalyse ein vollständiges und physikalisch korrektes Abbild der Atmosphäre über Jahrzehnte hinweg. Bei ERA5 vom Jahr 1940 bis heute. Und genau deshalb wird ERA5 häufig als Referenzdatensatz verwendet, wenn Wettermodelle validiert werden sollen.
Es ist offensichtlich, dass sich dadurch ein wichtiger Unterschied zu HRES ergibt. Eine Reanalyse kann nachträglich auf zusätzliche Messdaten zurückgreifen, die zum eigentlichen Vorhersagepunkt noch gar nicht verfügbar waren. Dadurch verbessert sich die Qualität des rekonstruierten atmosphärischen Zustands automatisch erheblich.
Ein operationelles Vorhersagemodell wie HRES hat diesen Vorteil überhaupt nicht. Es muss mit den Messdaten arbeiten, die zum Zeitpunkt des Modellstarts tatsächlich vorliegen. Das können mal mehr, mal weniger sein. Würde man warten, bis weitere Beobachtungen verfügbar sind, könnte man gar keine rechtzeitige Wettervorhersage mehr erstellen können. Zwar nutzt auch HRES umfangreiche Messdaten zur Initialisierung, jedoch längst nicht in derselben Vollständigkeit wie eine Reanalyse. Etwas vereinfacht gesagt startet HRES bereits mit einem gewissen Handicap.
Allerdings kommt jetzt der eigentlich entscheidendste Punkt für das KI-basierte Wettermodelle. Die Fähigkeit zur Vorhersage fällt einem KI-Modell nicht so einfach in den Schoß. Anders als bei der klassischen numerischen Wettervorhersage werden keine explizit formulierten physikalischen Gleichungen gelöst – stattdessen wird das Modell mit Daten trainiert.
Und diese Daten sind entscheidend. Die Daten müssen die Atmosphäre besonders realistisch beschreiben und gleichzeitig einen möglichst langen Zeitraum abdecken. Und jetzt darf man drei (nein eher zweimal) raten, woher die Daten zum Training stammen?! Korrekt, wenig überraschend: ERA5.
GraphCast wurde also auf einem Datensatz trainiert, der selbst bereits als Goldstandard der Reanalyse gilt. Gleichzeitig wurde das Modell anschließend auch anhand dieses Datensatzes bzw. darauf basierender Vergleichsdaten validiert. Dass GraphCast unter diesen Bedingungen sehr gute Ergebnisse erzielt, überrascht jetzt nicht völlig - auch wenn die Autoren versucht haben, Effekte wie Auflösungsverlust von HRES zu berücksichtigen.
Interessant bleibt es dennoch, dass GraphCast nicht in allen Fällen besser abgeschnitten hatte als das klassische Wettermodell. Es gibt also Fälle bzw. Situationen, in denen KI-Modelle bisher nicht besser sind als die üblichen numerischen Wettermodelle. Die aktuelle Studie der Forscher aus Karlsruhe und Genf zeigen Schwächen in den heutigen KI-Modellen auf – sehr wichtige Schwächen.
Denn es gibt Konstellationen, bei denen das physikalische, numerische Wettervorhersagemodell durchweg den KI-Modellen überlegen ist – den außergewöhnlichen Extremwetterbedingungen. Zwar gibt es durchaus Studien, die den KI-Modellen auch ganz gute Ergebnisse bei den Extremwetterereignissen bescheinigen, allerdings nur bei moderaten Extremen. Die Forschenden konnten zeigen, dass KI-Modelle vor allem bei Rekordereignissen diese systematisch unterschätzen, sowohl in Intensität, als auch in der Häufigkeit ihres Auftretens.
Dabei zeigt sich ein besonders auffälliges Muster: Je stärker der Extremwert den vorherigen Rekordwert übertraf, desto größer wurde die Unterschätzung durch die KI-Modelle.
Das zugrunde liegende Problem lautet: Extrapolation. Dabei handelt es sich nicht um neues Phänomen von KI-Modellen, sondern um eine grundsätzliche Einschränkung datengetriebener Verfahren. Die Modelle lernen aus Daten der Vergangenheit und können besonders gut Muster erkennen und vorhersagen, die bereits in der Vergangenheit aufgetreten sind. Je größer, länger und vielfältiger der Datensatz ist, desto höher die Wahrscheinlichkeit, dass die relevanten Muster korrekt erfasst werden.
Jetzt liegt es allerdings in der Natur der Extremwerte, dass sie selten auftreten – sonst wären sie keine Extremwerte. Und genau hier liegt Schwäche/Grenze heutiger KI-Modelle.
Bestimmte Konstellationen sind entweder bisher noch gar nicht oder nur sehr selten aufgetreten. Entsprechend fehlen den Modellen ausreichend Beispiele im Trainingsdatensatz, um derartige Ereignisse zuverlässig als wahrscheinlich einzuordnen. Rekordwetterextreme liegen per Definition außerhalb des Trainingsdatensatzes – sie sind bisher noch nicht aufgetreten. Durch die Kombination extrem selten und bisher noch nicht dagewesen, haben es KI-Modelle schwierig über ihren Trainingsraum verlässlich zu extrapolieren.
Daher unterschätzen sie systematisch Extremwetterereignisse, die zu einem Rekord führen hinsichtlich ihrer Intensität und ihrer Häufigkeit. Dazu zählen generell Hitze-, Kälte- und Windrekorde.
Wenig verwunderlich liegt hier das physikalische Modell näher an tatsächlichen Rekorden, da es auf den grundlegenden Gesetzen der Atmosphärenphysik basiert. Es ist also vor allem dann zuverlässiger wenn die Atmosphäre in Zustände übergeht, die man bisher noch nicht kannte. Gerade in einem sich rasch verändernden Klima ist dieser Punkt besonders wichtig. Denn mit fortschreitender Erwärmung steigt auch die Wahrscheinlichkeit für Wetterlagen und Extremereignisse, die außerhalb bisheriger Erfahrungswerte liegen.
Aus diesen Gründen können KI-Modelle die klassische numerische Wettervorhersage nicht ersetzen. Im Gegenteil: Die numerischen Modelle bilden bislang sogar die Grundlage der KI-Modelle, da sie wichtige Trainings- und Referenzdaten liefern.
Gleichzeitig bedeutet dies nicht, dass KI-Modelle keine Zukunft hätten. Verbesserte Trainingsdatensätze, längere Beobachtungszeiträume oder hybride Ansätze könnten die Leistungsfähigkeit der KI-Modelle in Zukunft deutlich steigern. Aber momentan – und möglicherweise auch längerfristig - besitzen KI-Modelle für Wettervorhersagen weiterhin klare Grenzen.
Der DWD hatte vor geraumer Zeit ein "Thema des Tages" der KI gewidmet.