Diese Nachricht in einem Reuter-Artikel vom 25.02.2019 ist derzeit in allen Nachrichten enthalten:
Beweis für vom Menschen verursachte globale Erwärmung erreicht "Goldstandard"
[Wissenschaftler] gaben an, die Zuversicht, dass menschliche Aktivitäten die Hitze an der Erdoberfläche ansteigen ließen, habe ein Fünf-Sigma-Niveau erreicht. Ein statistisches Maß bedeutet, dass das Signal nur mit einer Wahrscheinlichkeit von eins zu einer Million auftreten würde, wenn es eines gäbe keine Erwärmung.
Ich glaube, dies bezieht sich auf diesen Artikel "Feier des Jubiläums der drei Schlüsselereignisse der Klimawandelwissenschaft", der eine Handlung enthält, die im Folgenden schematisch dargestellt ist (Es ist eine Skizze, weil ich kein Open-Source-Bild für ein ähnliches Original gefunden habe freie bilder finden sie hier ). Ein anderer Artikel aus derselben Forschungsgruppe, der eine originellere Quelle zu sein scheint, ist hier (aber er verwendet eine 1% ige Signifikanz anstelle von ).
Das Diagramm zeigt Messungen aus drei verschiedenen Forschungsgruppen: Fernerkundungssysteme, das Zentrum für Satellitenanwendungen und -forschung und die Universität von Alabama in Huntsville.
Das Diagramm zeigt drei ansteigende Kurven des Signal-Rausch-Verhältnisses als Funktion der Trendlänge.
Irgendwie haben Wissenschaftler ein anthropogenes Signal der globalen Erwärmung (oder des Klimawandels?) Auf einem Niveau gemessen , was anscheinend ein wissenschaftlicher Beweisstandard ist .
Für mich wirft eine solche Grafik mit einem hohen Abstraktionsgrad viele Fragen auf , und im Allgemeinen frage ich mich , wie sie das gemacht haben. . Wie erklären wir dieses Experiment in einfachen Worten (aber nicht so abstrakt) und erklären auch die Bedeutung der Ebene?
Ich stelle diese Frage hier, weil ich keine Diskussion über das Klima haben möchte. Stattdessen möchte ich Antworten zum statistischen Inhalt und insbesondere zur Klärung der Bedeutung einer solchen Aussage, die verwendet / beansprucht .
Was ist die Nullhypothese? Wie haben sie das Experiment vorbereitet, um ein anthropogenes Signal zu erhalten? Wie groß ist der Effekt des Signals? Ist es nur ein kleines Signal und wir messen es jetzt nur, weil das Rauschen abnimmt oder das Signal zunimmt? Welche Annahmen werden getroffen, um das statistische Modell zu erstellen, mit dem das Überschreiten einer 5-Sigma-Schwelle (Unabhängigkeit, zufällige Effekte usw.) bestimmt wird? Warum sind die drei Kurven für die verschiedenen Forschungsgruppen unterschiedlich, haben sie unterschiedliches Rauschen oder unterschiedliche Signale, und was bedeutet das für die Interpretation von Wahrscheinlichkeit und äußerer Gültigkeit?
quelle
Antworten:
Es geht nicht immer um statistische Tests. Es kann sich auch um Informationstheorie handeln.
Der Ausdruck 5σ ist das, was er sagt: ein Verhältnis von "Signal" zu "Rauschen". Beim Testen von Hypothesen haben wir eine Schätzung eines Verteilungsparameters und einen Standardfehler der Schätzung. Das erste ist ein "Signal", das zweite ist "Rauschen", und das Verhältnis der Statistik zu ihrem Standardfehler ist die Z-Statistik, die T-Statistik, die F-Statistik, wie Sie es nennen.
Trotzdem ist das Signal-Rausch-Verhältnis überall dort nützlich, wo wir Informationen durch Rauschen empfangen / wahrnehmen. Wie der angegebene Link erklärt
In unserem Fall ist das "Signal" die gemessene tatsächliche Änderung der Temperatur einiger Schichten der Atmosphäre und das "Rauschen" sind Vorhersagen der Änderung aus den Simulationen ohne die bekannten anthropogenen Einflüsse. Es kommt also vor, dass diese Simulationen eine mehr oder weniger stationäre Temperatur mit einer bestimmten Standardabweichung & sgr; vorhersagten.
Nun zurück zur Statistik. Alle Teststatistiken (z, t, F) sind die Verhältnisse der Schätzung zu ihrem Standardfehler. Wenn wir Statistiker also von so etwas wie S / N hören, denken wir an eine Z-Statistik und statten sie mit der Wahrscheinlichkeit aus. Die Klimatologen tun dies offensichtlich nicht (es gibt keine Erwähnung der Wahrscheinlichkeit irgendwo im Artikel ). Sie stellen einfach fest, dass die Änderung "ungefähr drei- bis achtmal" größer ist als erwartet, das S / N ist 3σ bis 8σ.
In dem Artikel wird berichtet, dass zwei Arten von Simulationen durchgeführt wurden: Eine mit den bekannten anthropogenen Einflüssen, die in das Modell einbezogen wurden, und die andere ohne die bekannten anthropogenen Einflüsse. Die ersten Simulationen ähnelten den gemessenen tatsächlichen Satellitendaten, während die zweiten weit entfernt waren. Ob dies wahrscheinlich ist oder nicht, sagen sie nicht und kümmern sich offensichtlich nicht darum.
Andere Fragen beantworten. Sie haben keine Experimente durchgeführt, sondern Simulationen nach ihren Vorbildern durchgeführt. Es gibt also keine explizite Nullhypothese außer der offensichtlichen, dass die Änderung der erwarteten ähnlich ist (S / N ist 1).
Die Effektgröße des Signals ist ein Unterschied zwischen den tatsächlichen Daten und den Simulationen. Es ist ein Signal, das fünfmal so groß ist wie erwartet (fünfmal so große Variabilität der Temperaturen). Es scheint, dass das Rauschen aufgrund der Menge und möglicherweise Genauigkeit der Messungen abnimmt.
Entgegen unseren Erwartungen an die "echten Wissenschaftler" gibt es kein statistisches Modell, über das wir sprechen könnten, so dass die Frage nach den getroffenen Annahmen nicht eindeutig ist. Die einzige Annahme ist, dass ihre Modelle es ihnen ermöglichen, das Klima vorherzusagen. Dies gilt ebenso wie die Aussage, dass die für die Wettervorhersage verwendeten Modelle solide sind.
Es gibt viel mehr als drei Kurven. Sie sind die Simulationsergebnisse von verschiedenen Modellen. Sie müssen einfach anders sein. Und ja, haben unterschiedliche Geräusche. Das Signal ist, soweit es unterschiedlich ist, eine unterschiedliche Menge von Messungen, deren Messfehler vorliegen und die auch unterschiedlich sein sollten. Was bedeutet das für die Interpretation? Die Wahrscheinlichkeitsinterpretation des S / N ist nicht gut. Die externe Gültigkeit der Befunde ist jedoch gesichert. Sie behaupten lediglich, dass die Klimaveränderungen im Zeitraum von 1979 bis 2011 mit Simulationen vergleichbar sind, wenn die bekannten anthropogenen Einflüsse berücksichtigt werden, und dass sie ungefähr fünfmal größer sind als diejenigen, die durch Simulation berechnet werden, wenn die bekannten anthropogenen Faktoren aus dem Modell ausgeschlossen werden.
Es bleibt also noch eine Frage. Wenn die Klimatologen die Statistiker bitten würden, ein Modell zu erstellen, welches sollte es sein? Meiner Meinung nach etwas im Sinne der Brownschen Bewegung.
quelle
Vorsichtsmaßnahme: Ich bin kein Experte für Klimatologie, dies ist nicht mein Fachgebiet. Bitte denken Sie daran. Korrekturen sind willkommen.
Die Zahl, auf die Sie sich beziehen, stammt aus einer kürzlich erschienenen Veröffentlichung von Santer et al. 2019, Jubiläum von drei Schlüsselereignissen der Klimawandelwissenschaft aus der Sicht des Naturklimawandels . Es ist keine Forschungsarbeit, sondern ein kurzer Kommentar. Diese Abbildung ist eine vereinfachte Aktualisierung einer ähnlichen Abbildung aus einer früheren wissenschaftlichen Veröffentlichung der gleichen Autoren, Santer et al. 2018, Einfluss des Menschen auf den saisonalen Temperaturzyklus der Troposphäre . Hier ist die Zahl für 2019:
Und hier ist die Zahl für 2018; Tafel A entspricht der Abbildung von 2019:
Hier werde ich versuchen, die statistische Analyse hinter dieser letzten Abbildung (alle vier Panels) zu erklären. Das Wissenschaftspapier ist offen zugänglich und gut lesbar. Die statistischen Daten sind wie üblich in den Zusatzmaterialien verborgen. Bevor auf die Statistik als solche eingegangen wird, sind die Beobachtungsdaten und die hier verwendeten Simulationen (Klimamodelle) kurz zu beschreiben.
1. Daten
Die Abkürzungen RSS, UAH und STAR beziehen sich auf Rekonstruktionen der Troposphärentemperatur aus den Satellitenmessungen. Die troposphärische Temperatur wird seit 1979 mit Wettersatelliten überwacht: siehe Wikipedia zu MSU-Temperaturmessungen . Leider messen die Satelliten die Temperatur nicht direkt. Sie messen etwas anderes, woraus die Temperatur abgeleitet werden kann. Darüber hinaus ist bekannt, dass sie unter verschiedenen zeitabhängigen Vorspannungen und Kalibrierungsproblemen leiden. Dies macht die Rekonstruktion der tatsächlichen Temperatur zu einem schwierigen Problem. Mehrere Forschungsgruppen führen diese Rekonstruktion nach etwas unterschiedlichen Methoden durch und erzielen etwas unterschiedliche Endergebnisse. RSS, UAH und STAR sind diese Rekonstruktionen. Wikipedia zitieren,
Es gibt viele Debatten darüber, welcher Wiederaufbau zuverlässiger ist. Jede Gruppe aktualisiert ihre Algorithmen von Zeit zu Zeit und ändert dabei die gesamte rekonstruierte Zeitreihe. Aus diesem Grund unterscheidet sich beispielsweise RSS v3.3 von RSS v4.0 in der obigen Abbildung. Insgesamt ist AFAIK es auf dem Gebiet anerkannt , dass die Schätzungen der globalen Oberflächentemperatur sind mehr präziser als die Satellitenmessungen. Entscheidend für diese Frage ist auf jeden Fall, dass von 1979 bis heute mehrere Schätzungen der ortsaufgelösten Troposphärentemperatur vorliegen - dh als Funktion von Breite, Länge und Zeit.
2. Modelle
Es gibt verschiedene Klimamodelle, mit denen die troposphärische Temperatur simuliert werden kann (auch in Abhängigkeit von Breite, Länge und Zeit). Diese Modelle nehmen die CO2-Konzentration, die Vulkanaktivität, die Sonneneinstrahlung, die Aerosolkonzentration und verschiedene andere äußere Einflüsse als Input und erzeugen die Temperatur als Output. Diese Modelle können für den gleichen Zeitraum (1979 - jetzt) unter Verwendung der tatsächlich gemessenen äußeren Einflüsse betrieben werden. Die Ausgaben können dann gemittelt werden, um eine mittlere Modellausgabe zu erhalten.
Man kann diese Modelle auch ausführen, ohne die anthropogenen Faktoren (Treibhausgase, Aerosole usw.) einzugeben, um eine Vorstellung von nicht-anthropogenen Modellvorhersagen zu erhalten. Beachten Sie, dass alle anderen Faktoren (Sonne / Vulkan / etc.) Um ihre Mittelwerte schwanken, sodass die nicht-anthropogene Modellleistung konstruktionsbedingt stationär ist. Mit anderen Worten, die Modelle erlauben es nicht, dass sich das Klima auf natürliche Weise ändert, ohne dass eine bestimmte äußere Ursache vorliegt.
4. Einige Kommentare
Der erste Fingerabdruck (Panel A) ist meiner Meinung nach der trivialste. Es bedeutet einfach, dass die beobachteten Temperaturen monoton ansteigen, während die Temperaturen unter der Nullhypothese dies nicht tun. Ich glaube nicht, dass man diese komplizierte Maschinerie braucht, um diese Schlussfolgerung zu ziehen. Die Zeitreihe der globalen durchschnittlichen unteren Troposphärentemperatur (RSS-Variante) sieht folgendermaßen aus :
und klarerweise gibt es hier einen sehr signifikanten Trend. Ich glaube nicht, dass man Modelle braucht, um das zu sehen.
quelle