Diese Frage beschäftigt mich seit über einem Monat. In der Ausgabe der Amstat News vom Februar 2015 ist ein Artikel von Berkeley-Professor Mark van der Laan zu lesen, in dem die Leute wegen der Verwendung ungenauer Modelle beschimpft werden. Er stellt fest, dass Statistik durch die Verwendung von Modellen eher eine Kunst als eine Wissenschaft ist. Ihm zufolge kann man immer "das exakte Modell" verwenden, und dass unser Versäumnis dazu beiträgt, dass "keine Strenge mehr herrscht ... Ich befürchte, dass unsere Repräsentation in der Datenwissenschaft an den Rand gedrängt wird".
Ich bin damit einverstanden, dass wir in Gefahr sind, an den Rand gedrängt zu werden, aber die Bedrohung geht gewöhnlich von denjenigen aus, die behaupten (wie es sehr nach Professor van der Laan klingt), dass sie keine ungefähre Methode anwenden, deren Methoden jedoch weitaus weniger sind strenger als sorgfältig angewandte statistische Modelle - auch falsche.
Ich denke, es ist fair zu sagen, dass Prof. van der Laan diejenigen verachtet, die das oft verwendete Zitat von Box wiederholen: "Alle Modelle sind falsch, aber einige sind nützlich." Grundsätzlich, wie ich es lese, sagt er, dass alle Modelle falsch und alle unbrauchbar sind. Nun, wem kann ich mit einem Berkeley-Professor nicht zustimmen? Auf der anderen Seite, wer ist er, der die Ansichten eines der wirklichen Giganten auf unserem Gebiet so unbekümmert ablehnt?
Dr. van der Laan erklärt dazu: "Es ist ein völliger Unsinn, zu behaupten, dass alle Modelle falsch sind. Zum Beispiel ist ein statistisches Modell, das keine Annahmen trifft, immer wahr." Er fährt fort: "Aber oft können wir viel besser als das machen: Wir wissen vielleicht, dass die Daten das Ergebnis von unabhängigen identischen Experimenten sind." Ich sehe nicht, woher man das wissen kann, außer bei sehr engen Zufallsstichproben oder kontrollierten experimentellen Einstellungen. Der Autor verweist auf seine Arbeiten zum gezielten Lernen mit maximaler Wahrscheinlichkeit und zum gezielten Lernen mit minimalen Verlusten, die "den neuesten Stand des maschinellen Lernens / datenadaptiven Schätzens, all die unglaublichen Fortschritte bei der kausalen Folgerung, den zensierten Daten, der Effizienz und dem empirischen Lernen integrieren Prozesstheorie bei gleichzeitiger formaler statistischer Inferenz. "
Es gibt auch einige Aussagen, denen ich zustimme. Er sagt, dass wir unsere Arbeit, unsere Rolle als Statistiker und unsere wissenschaftlichen Mitarbeiter ernst nehmen müssen. Hört hört! Es ist sicherlich eine schlechte Nachricht, wenn Personen routinemäßig ein logistisches Regressionsmodell verwenden oder was auch immer, ohne sorgfältig zu überlegen, ob es für die Beantwortung der wissenschaftlichen Frage geeignet ist oder ob es zu den Daten passt. Und ich sehe viele solcher Missbräuche in Fragen, die in diesem Forum gepostet werden. Ich sehe aber auch effektive und wertvolle Verwendungen von ungenauen Modellen, auch von parametrischen. Und im Gegensatz zu dem, was er sagt, habe ich mich "selten durch ein anderes logistisches Regressionsmodell gelangweilt". Das ist wohl meine Naivität.
Also hier sind meine Fragen:
- Welche nützlichen statistischen Schlussfolgerungen können mit einem Modell gezogen werden, das überhaupt keine Annahmen trifft?
- Gibt es eine Fallstudie mit wichtigen realen Daten zur Verwendung der angestrebten maximalen Wahrscheinlichkeit? Sind diese Methoden weit verbreitet und akzeptiert?
- Sind wirklich alle ungenauen Modelle unbrauchbar?
- Ist es möglich zu wissen, dass Sie das genaue Modell haben, außer in unbedeutenden Fällen?
- Wenn dies zu meinungsbasiert und daher nicht thematisch ist, wo kann es diskutiert werden? Weil der Artikel von Dr. van der Laan definitiv eine Diskussion braucht.
Antworten:
Der zitierte Artikel scheint auf der Befürchtung zu beruhen, dass Statistiker "kein fester Bestandteil des wissenschaftlichen Teams sein werden, und die Wissenschaftler natürlich Zweifel an den angewandten Methoden haben" und dass "Kollaborateure uns als Techniker ansehen werden, die sie steuern können, um zu erhalten ihre wissenschaftlichen Ergebnisse veröffentlicht. " Meine Kommentare zu den von @rvl gestellten Fragen stammen aus der Perspektive eines nicht-statistischen Biologen, der sich mit zunehmend komplizierten statistischen Fragen auseinandersetzen musste, als ich in den letzten Jahren von der Bankforschung zur translationalen / klinischen Forschung überging. Frage 5 wird durch die Mehrfachantworten auf dieser Seite eindeutig beantwortet. Ich gehe von dort in umgekehrter Reihenfolge.
4) Es spielt keine Rolle, ob es ein "genaues Modell" gibt, denn selbst wenn ja, kann ich mir die Studie wahrscheinlich nicht leisten. Betrachten Sie dieses Problem im Kontext der Diskussion: Müssen wir wirklich "alle relevanten Prädiktoren" einbeziehen? Selbst wenn wir "alle relevanten Prädiktoren" identifizieren können, wird es immer noch das Problem geben, genügend Daten zu sammeln, um die Freiheitsgrade für die Einbeziehung bereitzustellen sie alle zuverlässig in das Modell. In kontrollierten experimentellen Studien ist das schon schwer genug, geschweige denn in retrospektiven Studien oder Populationsstudien. Vielleicht ist das bei einigen Arten von "Big Data" weniger ein Problem, aber es ist für mich und meine Kollegen. Es wird immer die Notwendigkeit sein, „um es klug zu sein“ , wie @Aksakal es eine eine setzene Antwort auf dieser Seite.
Um Prof. van der Laan gerecht zu werden, verwendet er im zitierten Artikel nicht das Wort "genau", zumindest nicht in der Version, die derzeit online über den Link verfügbar ist . Er spricht von "realistischen" Modellen. Das ist ein wichtiger Unterschied.
Andererseits beklagt Prof. van der Laan, dass "Statistik jetzt eine Kunst ist, keine Wissenschaft", was für ihn mehr als ein bisschen unfair ist. Überlegen Sie, wie er mit Mitarbeitern zusammenarbeiten möchte:
Die Anwendung dieser wissenschaftlichen Prinzipien auf Probleme der realen Welt scheint viel "Kunst" zu erfordern, wie bei der Arbeit in einem wissenschaftlichen Unternehmen. Ich habe einige sehr erfolgreiche Wissenschaftler gekannt, viele weitere, die OK taten, und einige Misserfolge. Meiner Erfahrung nach scheint der Unterschied in der "Kunst" zu liegen, wissenschaftliche Ziele zu verfolgen. Das Ergebnis mag Wissenschaft sein, aber der Prozess ist mehr.
3) Auch hier ist ein Teil des Problems terminologisch. Es gibt einen großen Unterschied zwischen einem "exakten" Modell und den "realistischen" Modellen, die Prof. van der Laan sucht. Seine Behauptung ist, dass viele statistische Standardmodelle ausreichend unrealistisch sind, um "unzuverlässige" Ergebnisse zu erzielen. Insbesondere: "Schätzer eines Schätzers, der in einem ehrlichen statistischen Modell definiert ist, können auf der Grundlage parametrischer Modelle nicht sinnvoll geschätzt werden." Das sind Fragen zum Testen, keine Meinungen.
Seine eigene Arbeit erkennt deutlich, dass exakte Modelle nicht immer möglich sind. Betrachten Sie dieses Manuskript zu gezielten Maximum-Likelihood-Schätzern (TMLE) im Kontext fehlender Ergebnisvariablen. Es basiert auf einer Annahme von zufällig fehlenden Ergebnissen, die in der Praxis möglicherweise nie überprüfbar sind: "... wir gehen davon aus, dass es keine unbeobachteten Störfaktoren für die Beziehung zwischen dem Fehlen ... und dem Ergebnis gibt." Dies ist ein weiteres Beispiel für die Schwierigkeit, "alle relevanten Prädiktoren" einzubeziehen. Eine Stärke von TMLE ist jedoch, dass es anscheinend dabei hilft, die "Positivitätsannahme" einer angemessenen Unterstützung in den Daten zur Schätzung des Zielparameters in diesem Kontext zu bewerten. Ziel ist es, einem realistischen Datenmodell möglichst nahe zu kommen.
2) TMLE wurde bereits bei Cross Validated erörtert . Mir ist keine weitverbreitete Verwendung von realen Daten bekannt. Google Scholar hat heute 258 Zitate des scheinbar ersten Berichts angezeigt , aber auf den ersten Blick befanden sich keine in großen realen Datensätzen. Der Artikel im Journal of Statistical Software zum zugehörigen R-Paket enthält heute nur 27 Zitate von Google Scholar. Dies sollte jedoch nicht als Beweis für den Wert von TMLE angesehen werden. Der Fokus auf zuverlässige unvoreingenommene Schätzungen des tatsächlichen "Schätzwerts" von Interesse, der häufig ein Problem bei Plug-in-Schätzungen darstellt, die aus statistischen Standardmodellen abgeleitet wurden, scheint potenziell wertvoll zu sein.
1) Die Aussage: "Ein statistisches Modell, das keine Annahmen trifft, ist immer wahr" scheint als Strohmann, als Tautologie gedacht zu sein. Die Daten sind die Daten. Ich gehe davon aus, dass es Gesetze des Universums gibt, die von Tag zu Tag gleich bleiben. Das TMLE-Verfahren enthält vermutlich Annahmen über die Konvexität im Suchraum, und wie oben erwähnt, erfordert seine Anwendung in einem bestimmten Kontext möglicherweise zusätzliche Annahmen.
Sogar Prof. van der Laan würde zustimmen, dass einige Annahmen notwendig sind. Meiner Meinung nach möchte er die Anzahl der Annahmen minimieren und solche vermeiden, die unrealistisch sind. Ob dies wirklich die Aufgabe parametrischer Modelle erfordert, wie er zu behaupten scheint, ist die entscheidende Frage.
quelle
Vielleicht habe ich den Punkt verpasst, aber ich denke, Sie müssen ein wenig zurücktreten.
Ich denke, sein Punkt ist der Missbrauch von leicht zugänglichen Werkzeugen ohne weiteres Wissen. Dies gilt auch für einen einfachen t-Test: Füttere den Algorithmus einfach mit deinen Daten, erhalte einen p <0,05 und denke, dass deine These wahr ist. Komplett falsch. Sie müssen natürlich mehr über Ihre Daten wissen.
Noch weiter zurücktreten: Es gibt nichts Vergleichbares ( Physiker hier). Einige stimmen jedoch sehr gut mit unseren Messungen überein. Das einzig genaue ist Mathe. Was nichts mit der Realität oder Modellen davon zu tun hat . Alles andere (und jedes Modell der Realität) ist "falsch" (wie so oft zitiert).
Aber was bedeutet "falsch" und nützlich? Beurteilen Sie selbst:
ALLE unsere aktuellen High-Tech-Produkte (Computer, Raketen, Radioaktivität usw.) basieren auf diesen falschen Modellen. Vielleicht sogar durch "falsche" Simulationen mit "falschen" Modellen berechnet.
-> Konzentriere dich mehr auf das "Nützliche" als auf das "Falsche";)
Genauer zu Ihren Fragen:
quelle
In der Wirtschaft wird viel über das Verständnis des "Datenerzeugungsprozesses" gesagt. Ich bin mir nicht sicher, was genau mit einem "exakten" Modell gemeint ist, aber in der Wirtschaft ist es möglicherweise dasselbe wie ein "korrekt angegebenes" Modell.
Sicherlich möchten Sie so viel wie möglich über den Prozess wissen, der die Daten generiert hat, bevor Sie ein Modell versuchen, oder? Ich denke, die Schwierigkeit ergibt sich aus a) wir haben möglicherweise keine Ahnung von der tatsächlichen DGP und b) selbst wenn wir die tatsächliche DGP kennen, könnte sie (aus vielen Gründen) nicht modelliert und geschätzt werden können.
Sie treffen also Annahmen, um die Dinge zu vereinfachen und die Schätzungsanforderungen zu reduzieren. Können Sie jemals wissen, ob Ihre Annahmen genau richtig sind? Sie können Beweise für sie gewinnen, aber in manchen Fällen ist es schwierig, wirklich sicher zu sein.
All dies muss ich sowohl in Bezug auf die etablierte Theorie als auch in Bezug auf die Praktikabilität herausfiltern. Wenn Sie eine Annahme treffen, die mit einer Theorie konsistent ist, und diese Annahme zu einer besseren Schätzleistung führt (Effizienz, Genauigkeit, Konsistenz usw.), dann sehe ich keinen Grund, dies zu vermeiden, auch wenn das Modell dadurch ungenau wird.
Ehrlich gesagt denke ich, der Artikel soll diejenigen, die mit Daten arbeiten, dazu anregen, über den gesamten Modellierungsprozess genauer nachzudenken. Es ist klar, dass van der Laan in seiner Arbeit Annahmen trifft . In diesem Beispiel scheint van der Laan die Sorge um ein genaues Modell zu zerstreuen und verwendet stattdessen eine ganze Reihe von Prozeduren, um die Leistung zu maximieren. Dies macht mich zuversichtlicher, dass er das Zitat von Box in der Absicht ausgesprochen hat, die Menschen daran zu hindern, es als Flucht vor der schwierigen Arbeit zu verwenden, das Problem zu verstehen.
Seien wir ehrlich, die Welt ist voll von Missbrauch und Missbrauch statistischer Modelle. Menschen wenden blind an, was immer sie können, und schlimmer noch, andere interpretieren die Ergebnisse oft auf die wünschenswerteste Weise. Dieser Artikel ist eine gute Erinnerung, um vorsichtig zu sein, aber ich denke nicht, dass wir es bis zum Äußersten nehmen sollten.
Die Auswirkungen des Obenstehenden auf Ihre Fragen:
quelle
Um Punkt 3 anzusprechen, lautet die Antwort natürlich nein. Fast jedes menschliche Unternehmen basiert irgendwann auf einem vereinfachten Modell: Kochen, Aufbauen und zwischenmenschliche Beziehungen beinhalten alle Menschen, die auf einer Art von Daten + Annahmen handeln. Niemand hat jemals ein Modell konstruiert, von dem er nicht Gebrauch machen wollte. Anders zu behaupten ist Leerlaufpedanterie.
Es ist viel interessanter und aufschlussreicher und nützlich zu fragen, wann ungenaue Modelle nicht nützlich sind, warum sie nicht nützlich sind und was passiert, wenn wir uns auf Modelle verlassen, die sich als nicht nützlich herausstellen. Jeder Forscher, ob in der Wissenschaft oder in der Industrie, muss diese Frage klug und oft stellen.
Ich glaube nicht, dass die Frage allgemein beantwortet werden kann, aber die Prinzipien der Fehlerausbreitung werden die Antwort auf diese Frage liefern. Ungenaue Modelle brechen zusammen, wenn das von ihnen vorhergesagte Verhalten das Verhalten in der realen Welt nicht widerspiegelt. Wenn Sie wissen, wie sich Fehler in einem System ausbreiten, können Sie besser verstehen, wie genau das System modelliert werden muss.
Beispielsweise ist eine starre Kugel normalerweise kein schlechtes Modell für einen Baseball. Aber wenn Sie einen Fängerhandschuh entwerfen, wird dieses Modell Sie im Stich lassen und Sie dazu bringen, das Falsche zu entwerfen. Ihre vereinfachenden Annahmen über die Baseballphysik verbreiten sich durch Ihr Baseball-Mitt-System und führen Sie zu den falschen Schlussfolgerungen.
quelle
1) Welche nützlichen statistischen Schlussfolgerungen können mit einem Modell gezogen werden, das überhaupt keine Annahmen trifft?
Ein Modell ist per Definition eine Verallgemeinerung dessen, was Sie beobachten, die durch bestimmte kausale Faktoren erfasst werden kann, die wiederum das beobachtete Ereignis erklären und schätzen können. Vorausgesetzt, dass all diesen Generalisierungsalgorithmen eine Art von Annahmen zugrunde liegen. Ich bin nicht sicher, was von einem Modell übrig ist, wenn Sie überhaupt keine Annahmen haben. Ich denke, Sie haben die Originaldaten und kein Modell mehr.
2) Gibt es eine Fallstudie mit wichtigen realen Daten zur Verwendung der angestrebten maximalen Wahrscheinlichkeit? Sind diese Methoden weit verbreitet und akzeptiert?
Ich weiß es nicht. Die maximale Wahrscheinlichkeit wird die ganze Zeit genutzt. Logit-Modelle basieren auf diesen und vielen anderen Modellen. Sie unterscheiden sich kaum von Standard-OLS, bei denen Sie sich auf die Reduzierung der Summe der Quadrate der Residuen konzentrieren. Ich bin mir nicht sicher, wie hoch die angestrebte maximale Wahrscheinlichkeit ist. Und wie unterscheidet es sich von der traditionellen Höchstwahrscheinlichkeit.
3) Sind alle ungenauen Modelle tatsächlich unbrauchbar?
Absolut nicht. Ungenaue Modelle können sehr nützlich sein. Erstens tragen sie dazu bei, ein Phänomen besser zu verstehen oder zu erklären. Das sollte für etwas zählen. Zweitens können sie eine Abstiegsschätzung und -vorhersage mit einem relevanten Konfidenzintervall bereitstellen, um die Unsicherheit zu erfassen, die mit einer Schätzung verbunden ist. Das kann eine Menge Informationen darüber liefern, was Sie studieren.
Das Thema "ungenau" wirft auch das Problem der Spannung zwischen Sparsamkeit und Überanpassung auf. Sie können ein einfaches Modell mit 5 Variablen haben, das "ungenau" ist, aber den Gesamttrend der abhängigen Variablen recht gut erfasst und erklärt. Sie können ein komplexeres Modell mit 10 Variablen haben, das "genauer" ist als das erste (höheres angepasstes R-Quadrat, niedrigerer Standardfehler usw.). Dieses zweite, komplexere Modell kann jedoch tatsächlich abstürzen, wenn Sie es mit einem Hold-Out-Beispiel testen. In einem solchen Fall kann das "ungenaue" Modell im Hold-Out-Beispiel sogar eine bessere Leistung erzielen. Dies geschieht buchstäblich die ganze Zeit in der Ökonometrie und ich vermute, in vielen anderen Sozialwissenschaften. Vorsicht vor "exakten" Modellen.
4) Ist es möglich zu wissen, dass Sie das genaue Modell haben, außer in unbedeutenden Fällen?
Es ist nicht möglich zu wissen, dass Sie das genaue Modell haben. Aber es ist möglich zu wissen, dass Sie ein ziemlich gutes Modell haben. Mit den Informationskriterien (AIC, BIC, SIC) erhalten Sie viele Informationen, mit denen Sie die relative Leistung verschiedener Modelle vergleichen und vergleichen können. Auch hier kann der LINK-Test Abhilfe schaffen.
5) Wenn dies zu meinungsbasiert und daher nicht thematisch ist, wo kann es diskutiert werden? Weil der Artikel von Dr. van der Laan definitiv eine Diskussion braucht.
Ich würde denken, dass dies ein angemessenes Forum ist, um dieses Thema zu diskutieren, wie irgendwo anders. Dies ist für die meisten von uns ein ziemlich interessantes Thema.
quelle
(Ich sehe den Ausdruck "genaues Modell" im Artikel nicht (obwohl oben zitiert))
1) Welche nützlichen statistischen Schlussfolgerungen können mit einem Modell gezogen werden, das überhaupt keine Annahmen trifft?
Du musst irgendwo anfangen. Wenn das alles ist, was Sie haben (nichts), kann es ein Ausgangspunkt sein.
2) Gibt es eine Fallstudie mit wichtigen realen Daten zur Verwendung der angestrebten maximalen Wahrscheinlichkeit? Sind diese Methoden weit verbreitet und akzeptiert?
Zur Beantwortung der zweiten Frage taucht Targeted Maximum Likelihood in 93/1143281 (~ .008%) der Artikel auf arxiv.org auf. Also, nein ist wahrscheinlich eine gute Schätzung (ohne Annahmen) zu dieser.
3) Sind alle ungenauen Modelle tatsächlich unbrauchbar?
Nein. Manchmal interessiert Sie nur ein Aspekt eines Modells. Dieser Aspekt kann sehr gut und der Rest sehr ungenau sein.
4) Ist es möglich zu wissen, dass Sie das genaue Modell haben, außer in unbedeutenden Fällen?
Das beste Modell ist das Modell, das Ihre Frage am besten beantwortet. Das kann bedeuten, etwas wegzulassen. Was Sie so gut wie möglich vermeiden möchten, ist ein Verstoß gegen die Annahme.
5) Happy Hour . Und Getränke sind billiger zu booten!
Ich finde die Verwendung des Wortes "genau" etwas beunruhigend. Es ist kein sehr statistisches Gerede. Ungenauigkeit? Variation? Danke, G'tt! Deshalb sind wir alle hier. Ich denke, der Satz "Alle Modelle sind falsch ..." ist in Ordnung, aber nur in der richtigen Firma. Statistiker verstehen, was es bedeutet, aber nur wenige andere.
quelle
Dieser Artikel scheint mir ein ehrlicher, aber politischer Artikel zu sein, eine aufrichtige Polemik . Als solches enthält es eine Menge leidenschaftlicher Passagen, die wissenschaftlich unsinnig sind, aber dennoch nützliche Gespräche und Überlegungen zu wichtigen Themen anregen können.
Es gibt hier viele gute Antworten. Lassen Sie mich ein paar Zeilen aus dem Artikel zitieren, um zu zeigen, dass Prof. Laan in seiner Arbeit mit Sicherheit kein "genaues Modell" verwendet (und übrigens, wer sagt das "genaues"? Modell "ist ein Konzept, das dem tatsächlichen Datenerzeugungsmechanismus entspricht?)
Zitate (kühn meine Betonung)
Kommentar: "Realistisch" ist genauso wenig "exakt" wie der Mars von der Erde. Beide umkreisen die Sonne, so dass es für manche Zwecke keine Rolle spielt, welchen Planeten man wählt. Für andere Zwecke ist es wichtig. Auch "am besten" ist ein relativer Begriff. "Genau" ist das nicht.
Kommentar: Ehrlichkeit ist in der Tat die beste Politik, aber es ist sicherlich nicht garantiert, dass sie "genau" ist. Außerdem scheint "vernünftige Schätzung" ein sehr verwässertes Ergebnis zu sein, wenn man das "genaue Modell" verwendet.
Kommentar: OK. Wir tun "das Beste, was wir können". Wie fast jeder an sich denkt. Aber "best we can" ist nicht "genau".
quelle
Ich werde dies aus der anderen Richtung der Philosophie angehen, im Lichte der wirklich nützlichen Prinzipien des Unsicherheitsmanagements, die in George F. Klirs Büchern über Fuzzy-Sets diskutiert werden. Ich kann van der Laan nicht genau beschreiben, aber ich kann eine ziemlich erschöpfende Begründung dafür liefern, warum sein Ziel logisch unmöglich ist. Das wird eine lange Diskussion erfordern, die sich auf andere Bereiche bezieht.
Klir und seine Mitautoren unterteilen die Unsicherheit in verschiedene Subtypen, wie z. B. die Unsicherheit (dh wenn Sie eine unbekannte Menge von Alternativen haben, die mit Mitteln wie der Hartley-Funktion behandelt werden); Ungenauigkeit in Definitionen (dh die in Fuzzy-Mengen modellierte und quantifizierte "Unschärfe"); Streit oder Zwietracht in Beweismitteln (behandelt in Dempster-Shafer Evidence Theory); Dazu kommen Wahrscheinlichkeitstheorie, Möglichkeitstheorie und Messunsicherheit, bei denen ein angemessener Erfassungsbereich für die relevanten Beweise bei gleichzeitiger Minimierung von Fehlern angestrebt wird. Ich betrachte die gesamte Toolbox statistischer Techniken als alternatives Mittel, um die Unsicherheit auf unterschiedliche Weise zu unterteilen, ähnlich wie bei einem Ausstecher. Konfidenzintervalle und p-Werte stellen die Unsicherheit in gewisser Weise unter Quarantäne, während Messungen wie Shannons Entropie sie aus einem anderen Blickwinkel herabsetzen. Was sie können Es ist jedoch nicht vollständig zu beseitigen. Um ein "genaues Modell" zu erhalten, wie es van der Laan zu beschreiben scheint, müssten wir all diese Arten von Unsicherheiten auf Null reduzieren, damit es nicht mehr nötig ist, zu partitionieren. Ein wirklich "genaues" Modell hätte immer Wahrscheinlichkeits- und Wahrscheinlichkeitswerte von 1, Unsicherheitswerte von 0 und keinerlei Unsicherheit in Bezug auf die Definition von Begriffen, Wertebereichen oder Messskalen. Es würde keine Zwietracht in alternativen Beweisquellen geben. Die Vorhersagen eines solchen Modells wären immer zu 100 Prozent korrekt. Vorhersagemodelle unterteilen ihre Unsicherheit im Wesentlichen in die Zukunft, aber es würde keine mehr übrig bleiben, die sie abschrecken könnten. Die Unsicherheitsperspektive hat einige wichtige Auswirkungen: so wie van der Laan es zu beschreiben scheint, müssten wir all diese Arten von Unsicherheit auf Null reduzieren, damit es keine Möglichkeit mehr gibt, sie zu unterteilen. Ein wirklich "genaues" Modell hätte immer Wahrscheinlichkeits- und Wahrscheinlichkeitswerte von 1, Unsicherheitswerte von 0 und keinerlei Unsicherheit in Bezug auf die Definition von Begriffen, Wertebereichen oder Messskalen. Es würde keine Zwietracht in alternativen Beweisquellen geben. Die Vorhersagen eines solchen Modells wären immer zu 100 Prozent korrekt. Vorhersagemodelle unterteilen ihre Unsicherheit im Wesentlichen in die Zukunft, aber es würde keine mehr übrig bleiben, die sie abschrecken könnten. Die Unsicherheitsperspektive hat einige wichtige Auswirkungen: so wie van der Laan es zu beschreiben scheint, müssten wir all diese Arten von Unsicherheit auf Null reduzieren, damit es keine Möglichkeit mehr gibt, sie zu unterteilen. Ein wirklich "genaues" Modell hätte immer Wahrscheinlichkeits- und Wahrscheinlichkeitswerte von 1, Unsicherheitswerte von 0 und keinerlei Unsicherheit in Bezug auf die Definition von Begriffen, Wertebereichen oder Messskalen. Es würde keine Zwietracht in alternativen Beweisquellen geben. Die Vorhersagen eines solchen Modells wären immer zu 100 Prozent korrekt. Vorhersagemodelle unterteilen ihre Unsicherheit im Wesentlichen in die Zukunft, aber es würde keine mehr übrig bleiben, die sie abschrecken könnten. Die Unsicherheitsperspektive hat einige wichtige Auswirkungen: Ein wirklich "genaues" Modell hätte immer Wahrscheinlichkeits- und Wahrscheinlichkeitswerte von 1, Unsicherheitswerte von 0 und keinerlei Unsicherheit in Bezug auf die Definition von Begriffen, Wertebereichen oder Messskalen. Es würde keine Zwietracht in alternativen Beweisquellen geben. Die Vorhersagen eines solchen Modells wären immer zu 100 Prozent korrekt. Vorhersagemodelle unterteilen ihre Unsicherheit im Wesentlichen in die Zukunft, aber es würde keine mehr übrig bleiben, die sie abschrecken könnten. Die Unsicherheitsperspektive hat einige wichtige Auswirkungen: Ein wirklich "genaues" Modell hätte immer Wahrscheinlichkeits- und Wahrscheinlichkeitswerte von 1, Unsicherheitswerte von 0 und keinerlei Unsicherheit in Bezug auf die Definition von Begriffen, Wertebereichen oder Messskalen. Es würde keine Zwietracht in alternativen Beweisquellen geben. Die Vorhersagen eines solchen Modells wären immer zu 100 Prozent korrekt. Vorhersagemodelle unterteilen ihre Unsicherheit im Wesentlichen in die Zukunft, aber es würde keine mehr übrig bleiben, die sie abschrecken könnten. Die Unsicherheitsperspektive hat einige wichtige Auswirkungen: Die Vorhersagen eines solchen Modells wären immer zu 100 Prozent korrekt. Vorhersagemodelle unterteilen ihre Unsicherheit im Wesentlichen in die Zukunft, aber es würde keine mehr übrig bleiben, die sie abschrecken könnten. Die Unsicherheitsperspektive hat einige wichtige Auswirkungen: Die Vorhersagen eines solchen Modells wären immer zu 100 Prozent korrekt. Vorhersagemodelle unterteilen ihre Unsicherheit im Wesentlichen in die Zukunft, aber es würde keine mehr übrig bleiben, die sie abschrecken könnten. Die Unsicherheitsperspektive hat einige wichtige Auswirkungen:
• Dieser hohe Auftrag ist nicht nur physikalisch unplausibel, sondern auch logisch unmöglich. Offensichtlich können wir keine perfekt kontinuierlichen Messskalen mit infinitesimalen Graden erzielen, indem wir endliche Beobachtungen mit fehlbaren physikalisch-wissenschaftlichen Geräten sammeln. Es wird immer eine gewisse Unsicherheit in Bezug auf die Messskala geben. Ebenso wird es immer eine gewisse Unschärfe bei den Definitionen geben, die wir in unseren Experimenten verwenden. Die Zukunft ist ebenfalls von Natur aus ungewiss, so dass die angeblich perfekten Vorhersagen unserer "exakten" Modelle als unvollkommen behandelt werden müssen, bis das Gegenteil bewiesen ist - was eine Ewigkeit dauern würde.
• Erschwerend kommt hinzu, dass keine Messtechnik zu irgendeinem Zeitpunkt zu 100 Prozent fehlerfrei ist und auch nicht umfassend genug sein kann, um alle möglicherweise widersprüchlichen Informationen im Universum zu erfassen. Darüber hinaus kann die Beseitigung möglicher Störgrößen und die vollständige bedingte Unabhängigkeit nicht gründlich nachgewiesen werden, ohne alle anderen physikalischen Prozesse zu untersuchen, die den von uns untersuchten betreffen, sowie diejenigen, die diese sekundären Prozesse betreffen, und so weiter.
• Exaktheit ist nur in der reinen Logik und ihrer Teilmenge Mathematik möglich, gerade weil Abstraktionen von realen Belangen wie diesen Unsicherheitsquellen getrennt sind. Zum Beispiel können wir durch rein deduktive Logik beweisen, dass 2 + 2 = 4 und jede andere Antwort zu 100 Prozent falsch ist. Wir können auch absolut genaue Vorhersagen treffen, dass sie immer gleich 4 sein werden. Diese Genauigkeit ist nur in Statistiken möglich, wenn es sich um Abstraktionen handelt. Statistik ist unglaublich nützlich, wenn sie auf die reale Welt angewendet wird, aber genau das, was sie nützlich macht, bringt zumindest einen gewissen Grad an unvermeidbarer Unsicherheit mit sich und macht sie dadurch ungenau. Es ist ein unvermeidliches Dilemma.
• Peter Chu weist außerdem auf zusätzliche Einschränkungen im Kommentarbereich des Artikels hin, auf den rvl verweist. Er sagt es besser als ich:
• All dies bedeutet, dass die Wissenschaft selbst nicht genau sein kann, obwohl van der Laan in seinem Artikel so darüber zu sprechen scheint. Die wissenschaftliche Methode als abstrakter Prozess ist genau definierbar, aber die Unmöglichkeit einer universellen und perfekten exakten Messung bedeutet, dass sie keine exakten Modelle ohne Unsicherheit erzeugen kann. Wissenschaft ist ein großartiges Werkzeug, aber es hat Grenzen.
• Es wird von dort schlimmer: Auch wenn möglich waren genau alle Kräfte auf jedem Konstituentenquark und Gluonen im Universum wirken zu messen, würden einige Unsicherheiten nach wie vor bleiben. Erstens wären Vorhersagen, die von einem solchen vollständigen Modell getroffen werden, aufgrund der Existenz mehrerer Lösungen für Quintingleichungen und höhere Polynome immer noch unsicher. Zweitens können wir nicht ganz sicher sein, dass die extreme Skepsis, die in der klassischen Frage "Vielleicht ist das alles ein Traum oder eine Halluzination" zum Ausdruck kommt, nicht die Realität widerspiegelt - in diesem Fall sind alle unsere Modelle in der Tat im schlimmsten Fall falsch . Dies entspricht im Grunde einer extremeren ontologischen Interpretation der ursprünglichen erkenntnistheoretischen Formulierungen von Philosophien wie Phänomenalismus, Idealismus und Solipsismus.
• In seiner klassischen Orthodoxie von 1909GK Chesterton bemerkte, dass die extremen Versionen dieser Philosophien zwar beurteilt werden können, aber danach, ob sie ihre Gläubigen in psychiatrische Anstalten treiben oder nicht; Der ontologische Solipsismus zum Beispiel ist ebenso wie einige seiner Verwandten ein Marker für Schizophrenie. Das Beste, was wir in dieser Welt erreichen können, ist, vernünftige Zweifel zu beseitigen. Unangemessene Zweifel dieser beunruhigenden Art können nicht konsequent beseitigt werden, selbst in einer hypothetischen Welt exakter Modelle, erschöpfender und fehlerfreier Messungen. Wenn van der Laan uns von unzumutbaren Zweifeln befreien will, dann spielt er mit dem Feuer. Indem wir nach Perfektion greifen, wird das endliche Gute, das wir tun können, durch unsere Finger gleiten. Wir sind endliche Wesen, die in einer unendlichen Welt existieren, was bedeutet, dass die Art des vollständigen und absolut sicheren Wissens, für das van der Laan plädiert, für immer außerhalb unserer Reichweite liegt. Der einzige Weg, wie wir diese Art von Gewissheit erreichen können, besteht darin, aus dieser Welt in die engeren Grenzen der perfekt abstrakten Welt zurückzukehren, die wir "reine Mathematik" nennen. Dies bedeutet jedoch nicht, dass ein Rückzug in die reine Mathematik die Lösung zur Beseitigung der Unsicherheit ist. Dies war im Wesentlichen der Ansatz der Nachfolger Ludwig Wittgensteins (1889-1951), der seine Philosophie des logischen Positivismus von jeglichem gesunden Menschenverstand befreite, indem er die Metaphysik insgesamt ablehnte und sich ganz in reine Mathematik und Wissenschaft sowie extreme Skepsis zurückzog. Überspezialisierung und Überbetonung der Genauigkeit gegenüber der Nützlichkeit. Dabei zerstörten sie die Disziplin der Philosophie, indem sie sie in einen Sumpf aus Trottel über Definitionen und Nabelschau auflösten und sie damit für den Rest der Wissenschaft irrelevant machten. Dies tötete im Wesentlichen die gesamte Disziplin, die bis zum Beginn des 20. Jahrhunderts im Vordergrund der akademischen Debatte stand, bis zu einem Punkt, an dem die Aufmerksamkeit der Medien noch immer auf sich zog und einige ihrer Führer bekannte Namen waren. Sie erfassten eine perfekte, ausgefeilte Erklärung der Welt, und sie rutschte ihnen durch die Finger - genau wie es bei den Geisteskranken der Fall war, von denen GKC sprach. Es wird auch aus dem Griff von van der Laan entgleiten, der seinen eigenen Standpunkt bereits widerlegt hat, wie weiter unten erörtert wird. Das Streben nach zu genauen Modellen ist nicht nur unmöglich; es kann gefährlich sein, wenn man es bis zu einer selbstzerstörerischen Besessenheit bringt. Das Streben nach dieser Art von Reinheit endet selten gut; Es ist oft so selbstzerstörerisch wie die Keimtötenden, die sich so heftig die Hände scheuern, dass sie Wunden bekommen, die sich infizieren. Es' s erinnert an Ikarus, der versucht, der Sonne Feuer zu stehlen: Als endliche Wesen können wir nur ein endliches Verständnis der Dinge haben. Wie Chesterton auch in der Orthodoxie sagt: "Es ist der Logiker, der versucht, den Himmel in seinen Kopf zu bekommen. Und es ist sein Kopf, der sich spaltet."
Lassen Sie mich im Lichte der obigen Ausführungen einige der von rvl aufgeführten spezifischen Fragen beantworten:
1) Ein Modell ohne jegliche Annahmen ist sich entweder a) seiner eigenen Annahmen nicht bewusst oder b) muss sauber von Überlegungen getrennt sein, die Unsicherheiten wie Messfehler mit sich bringen, und dabei jede einzelne mögliche Störgröße, perfekt kontinuierliche Messskalen und die mögen.
2) Ich bin immer noch ein Neuling, wenn es um die Schätzung der maximalen Wahrscheinlichkeit (Maximum Likelihood, MLE) geht, daher kann ich die Mechanismen der Zielwahrscheinlichkeit nicht kommentieren, außer um das Offensichtliche hervorzuheben: Wahrscheinlichkeit ist nur das, eine Wahrscheinlichkeit, keine Gewissheit . Um ein genaues Modell abzuleiten, muss die Unsicherheit vollständig beseitigt werden, was die Wahrscheinlichkeitslogik, wenn überhaupt, selten tun kann.
3) Natürlich nicht. Da alle Modelle eine gewisse Unsicherheit aufweisen und daher ungenau sind (mit Ausnahme der reinen Mathematik, die von den realen physikalischen Messungen getrennt ist), hätte die Menschheit bisher keinen technologischen Fortschritt erzielen können - oder in der Tat einen anderen Fortschritt alle. Wenn ungenaue Modelle immer nutzlos wären, würden wir diese Konversation in einer Höhle führen, anstatt auf dieser unglaublichen technischen Meisterleistung namens Internet, die allesamt durch ungenaue Modellierung ermöglicht wurde.
Ironischerweise ist van der Laans eigenes Modell ein Hauptbeispiel für Ungenauigkeit. Sein eigener Artikel skizziert eine Art Modell, wie das Gebiet der Statistik verwaltet werden sollte, mit dem Ziel, genaue Modelle zu erstellen. Es gibt noch keine Zahlen für dieses "Modell", kein Maß dafür, wie ungenau oder unbrauchbar die meisten Modelle sind, kein Maß dafür, wie weit wir von seiner Vision entfernt sind, aber ich nehme an, man könnte Tests für diese Dinge entwickeln . So wie es aussieht, ist sein Modell jedoch ungenau. Wenn es nicht nützlich ist, bedeutet es, dass sein Standpunkt falsch ist; Wenn es nützlich ist, wird seine Hauptaufgabe zunichte gemacht, dass ungenaue Modelle nicht nützlich sind. In jedem Fall widerlegt er sein eigenes Argument.
4) Wahrscheinlich nicht, da wir nicht über vollständige Informationen verfügen, mit denen wir unser Modell testen können, aus den gleichen Gründen, aus denen wir überhaupt kein genaues Modell ableiten können. Ein genaues Modell würde per Definition eine perfekte Vorhersagbarkeit erfordern, aber selbst wenn die ersten 100 Tests zu 100 Prozent genau ausfallen, ist dies beim 101. möglicherweise nicht der Fall. Dann gibt es die ganze Ausgabe von infinitesimalen Maßstäben. Danach stoßen wir auf alle anderen Unsicherheitsfaktoren, die eine Bewertung des Elfenbeinturms unseres Elfenbeinturmmodells beeinträchtigen.
5) Um das Problem anzusprechen, musste ich es in einen größeren Kontext von viel größeren philosophischen Fragen stellen, die oft kontrovers sind. Ich denke nicht, dass es möglich ist, dies zu diskutieren, ohne auf Meinungen einzugehen Quelle der Unsicherheit), aber Sie haben Recht, verdient dieser Artikel eine Antwort. Vieles, was er zu anderen Themen sagt, ist auf dem richtigen Weg, zum Beispiel die Notwendigkeit, Statistiken für Big Data relevant zu machen, aber es gibt einige unpraktische Extremismen, die korrigiert werden sollten.
quelle