Stimmt die Wettervorhersage immer oder liegen wir auch manchmal daneben?

Natürlich stimmt die Vorhersage immer würden wir nur allzu gerne an dieser Stelle berichten.

Dass dies bekanntermaßen nicht so ist, geben wir aber auch gerne zu. Es liegt in der Natur der Wettervorhersage, sogar eher selten exakt richtig zu liegen. In unserer Atmosphäre laufen hochgradig nicht-lineare Prozesse ab, die auch mit dem Wort "chaotisch" beschrieben werden. Somit bleibt je nach Fragestellung immer ein gewisser Unsicherheitsbereich in der Vorhersage übrig.

Nun wollen wir uns aber nicht hinter diesen Aussagen verstecken, sondern sehr wohl versuchen herauszufinden, welche Qualität unsere Vorhersageprodukte haben.

Zunächst ist ganz entscheidend, was wir eigentlich genau prüfen wollen und welche Kriterien wir dann fordern, um eine Vorhersage als gut oder nicht ganz so gut einzustufen.
  • Nach welchen meteorologischen Elementen wird gefragt?
  • Welche Vorhersagezeit interessiert uns: die nächsten Stunden, der nächste Tag oder "Samstag in 8 Tagen"?
  • Wollen wir eine Aussage für einen bestimmten Ort oder eine Region, vielleicht einen Landkreis machen?

Das lässt sich, sofern man genügend gute Beobachtungen vorliegen hat, im Prinzip alles ausrechnen. Allerdings hat man dann schnell eine Unmenge Zahlen vor sich liegen, und wer hat schon die Zeit, sich das alles auch noch anzuschauen und zu interpretieren?

Deshalb versuchen wir möglichst repräsentative Datenkollektive auszusuchen und zusammenzufassen, um auf unsere und hoffentlich auch ihre wesentlichen Fragen Antworten zu bekommen.


Qualität kurzfristiger Punktvorhersagen

Eine Möglichkeit, die Qualität unserer Wettervorhersagen zu bewerten, ist die Definition einer Fehlertoleranz. Beispielsweise bewerten wir eine Temperaturvorhersage für morgen als Treffer, wenn sie nicht weiter als ±2.5 Kelvin von der Beobachtung abweicht.

Abbildung 1 zeigt genau diese Art der Auswertung für Quartalswerte seit 1984 am Beispiel der Extremtemperaturen und der Windgeschwindigkeit (±2.5 m/s).

Sichtbar werden durch das jeweilige Wettergeschehen begründete Schwankungen, aber im Trend auch eine mehr oder weniger stetige Verbesserung hin zu Trefferquoten über 90 %. Damit wird klar, dass heutzutage große Fehler in der Vorhersage dieser Elemente immer seltener werden.

Abblidung1: Entwicklung der Trefferquoten von Vorhersagen für morgen. (Quelle DWD WV11)

Abbildung 1: Entwicklung der Trefferquoten von Vorhersagen für morgen. Die Fehlertoleranzen sind: Temperaturen ±2.5 K (links) und Windgeschwindigkeit ±2.5 m/s (rechts). Dünne Linien zeigen den Verlauf der Quartalsergebnisse, dickere Linien das gleitende Mittel unter Einschluss der drei Nachbarwerte beiderseits, mit doppeltem Gewicht des zentralen Wertes.

Fragen wir nach kategorischen Elementen wie etwa Böen >12 m/s oder eintreffendem Niederschlag innerhalb von 12 Stunden, so sind die Trends nicht mehr so eindeutig (vgl. Abbildung 2). Die Vorhersage solcher Elemente an einem ganz bestimmten Ort ist entsprechend schwieriger und es bleibt trotz aller Anstrengungen gerade auch in der Niederschlagsvorhersage eine Herausforderung, die Qualität zu verbessern.

Abbildung 2: Entwicklung der Trefferquoten von Vorhersagen für morgen. (Quelle DWD WV11)

Abbildung 2: Entwicklung der Trefferraten von Vorhersagen für morgen bzgl. der überschreitung eines bestimmten Schwellenwertes: Böen >12 m/s (links), Niederschlag >0 mm/12h. Dünne Linien zeigen den Verlauf der Quartalsergebnisse, dickere Linien das gleitende Mittel unter Einschluss der drei Nachbarwerte beiderseits, mit doppeltem Gewicht des zentralen Wertes.

Ein wichtiger Schritt ist der Vergleich aktueller Vorhersagen mit Referenzvorhersagen. Klima- oder Persistenzvorhersagen sind vergleichsweise kostengünstig und es sollte deutlich werden, dass wir deren Qualität übertreffen.

Abbildung 3: Entwicklung von mittlerer Vorhersageleistung und Spannweite von Kurzfristprognosen (Quelle DWD WV11)

Abbildung 3: Entwicklung von mittlerer Vorhersageleistung (MW) und Spannweite (SP, Unterschied zwischen bestem und schlechtestem Ergebnis der betrachteten Stationen) von Kurzfristprognosen zusammengefasst aus Temperatur, Bedeckungsgrad, Wind und Niederschlag seit 1992. Jeder Punkt steht für einen Quartalswert.

Eine Möglichkeit, solche Leistungsaussagen zu bekommen, ist ein Vergleich der mittleren quadratischen Fehler von aktueller Vorhersage zu einer Referenz über die Reduktion der Varianz (RV). Abbildung 3 zeigt, dass aktuelle Vorhersagen gegenüber der Persistenzvorhersage einen deutlichen Mehrwert liefern und dieser seit 1992 zudem stetig angestiegen ist, wenngleich es in den letzten Jahren immer schwieriger wird, diesen Trend fortzuführen.

Qualität mittelfristiger Vorhersagen

Möchte man Vorhersagen betrachten, die weiter als einen Tag in die Zukunft reichen, muss man mit kontinuierlich abfallender Qualität rechnen. Je weiter wir in die Zukunft schauen wollen, desto schwieriger werden verlässliche Aussagen. Am Beispiel der Tagesmitteltemperatur zeigt Abbildung 4 den mittleren quadratischen Fehler bis zum 9.Folgetag, wobei Punktvorhersagen mit Gebietsvorhersagen verglichen werden.

Abbildung 4: RMSE der Tagesmitteltemperatur von Gebiets- und Punktvorhersagen (Quelle DWD WV11)

Abbildung 4: RMSE der Tagesmitteltemperatur von Gebiets- (anthrazit) und Punktvorhersagen (magenta) im Winterhalbjahr 2014/15.

Besonders mittelfristige Vorhersagen sollten auch immer eine Angabe der Unsicherheitsbereiche beinhalten. Dies wird heutzutage meist durch Informationen über Spannweiten oder Eintreffwahrscheinlichkeiten abgedeckt, in Berichten häufig mit Begrifflichkeiten wie "örtlich", "lokal", "möglich" oder eben auch "wahrscheinlich" umschrieben. Zukünftig sollen an dieser Stelle auch Ergebnisse bezüglich solcher Wahrscheinlichkeitsaussagen dargestellt werden.

Qualität von Warnungen

Ein ganz wesentlicher Teil unserer Vorhersageprodukte sind die Warnungen des Deutschen Wetterdienstes. Aktuell werden sie in der Regel für Landkreise ausgegeben. Anders gesagt: wir warnen davor, dass irgendwo in einem Landkreis ein meteorologisches Ereignis eintritt, welches potentiell eine gewisse Gefahr darstellt.

Problematisch ist nun, dass wir viele solcher Ereignisse nur mit Beobachtungen an Stationen messen können, also an bestimmten Punkten in einem Landkreis. Wird das Ereignis nun nicht durch Messungen erfasst, muss das noch nicht heißen, dass das Ereignis nicht eingetroffen ist.

Für einige wenige Wetterereignisse gibt es allerdings flächendeckende Informationen, etwa durch Radarinformationen oder durch Blitzortungssysteme.

In Abbildung 5 ist ein Ergebnis für Gewitterwarnungen im Sommerhalbjahr 2014 gezeigt. Grundlage sind alle Warnungen vor Gewitter im Vergleich zu beobachteten Blitzen in einem Landkreis. Die Warnkategorie (Wetter, markant, Unwetter, extremes Unwetter) spielt in diesem Beispiel keine Rolle.

Abbildung 5: Landkreisdarstellung von POD und FAR der Gewitterwarnungen im Sommerhalbjahr 2014.  (Quelle DWD WV11)

Abbildung 5: Landkreisdarstellung von POD (links) und FAR (rechts) der Gewitterwarnungen im Sommerhalbjahr 2014. Hinweis: Rote Farbtöne zeigen eine gute POD, aber schlechte FAR Werte an, blaue Farbtöne entsprechend umgekehrt.

Man erkennt für die Trefferrate (POD) überwiegend rötliche Farbtöne, was einer mittleren POD von über 85 % pro Landkreis entspricht.

Es wäre ein Leichtes, diese Trefferrate auf 100 % zu schrauben. Da wir aber glaubhaft bleiben wollen, müssen wir auch immer die Falschen Alarme in erträglichem Rahmen halten. Für das Sommerhalbjahr 2014 erzeugen wir im Mittel pro Landkreis eine Falsch-Alarm-Rate (FAR) um 65 %. Hinzuzufügen ist für Gewitterereignisse, dass sich diese häufig sehr kurzfristig entwickeln und somit schwer vorhersagbar sind.

Für kleinere Schwellenwerte bezüglich winterlicher Sturmereignisse erreichen wir höhere POD-Werte bei zugleich geringerer FAR.