Was ist die häufigste Einstellung zur Voltmeter-Geschichte?

Was ist die häufigste Meinung zu der Voltmeter-Geschichte und ihren Variationen? Die Idee dahinter ist, dass eine statistische Analyse, die sich auf hypothetische Ereignisse bezieht, überarbeitet werden muss, wenn später festgestellt wird, dass diese hypothetischen Ereignisse nicht wie angenommen hätten stattfinden können.

Die Version der Geschichte auf Wikipedia ist unten angegeben.

Ein Ingenieur zieht eine zufällige Stichprobe von Elektronenröhren und misst deren Spannung. Die Messungen reichen von 75 bis 99 Volt. Ein Statistiker berechnet den Stichprobenmittelwert und ein Konfidenzintervall für den wahren Mittelwert. Später stellt der Statistiker fest, dass das Voltmeter nur bis zu 100 anzeigt, sodass die Bevölkerung „zensiert“ zu sein scheint. Dies erfordert eine neue Analyse, wenn der Statistiker orthodox ist. Der Ingenieur sagt jedoch, er habe einen anderen Zählerstand auf 1000 Volt, den er verwendet hätte, wenn irgendeine Spannung über 100 gewesen wäre. Dies ist eine Erleichterung für den Statistiker, da die Bevölkerung letztendlich praktisch unzensiert war. Am nächsten Tag informiert der Ingenieur den Statistiker darüber, dass dieser zweite Zähler zum Zeitpunkt der Messung nicht funktioniert hat. Der Statistiker stellt fest, dass der Ingenieur die Messungen nicht aufrechterhalten hätte, bis das Messgerät repariert wurde, und informiert ihn, dass neue Messungen erforderlich sind. Der Ingenieur ist erstaunt. "Als nächstes werden Sie nach meinem Oszilloskop fragen".

Die Geschichte soll natürlich albern sein, aber es ist mir nicht klar, welche Freiheiten mit der Methodik genommen werden, auf die sie Spaß macht. Ich bin sicher, in diesem Fall würde sich ein vielbeschäftigter angewandter Statistiker darüber keine Sorgen machen, aber was ist mit einem akademischen Hardcore-Frequentisten?

Müssten wir das Experiment mit einem dogmatischen Ansatz wiederholen? Können wir aus den bereits verfügbaren Daten Schlussfolgerungen ziehen?

Könnte die notwendige Überarbeitung der hypothetischen Ergebnisse vorgenommen werden, um auch den allgemeineren Aspekt der Geschichte anzusprechen, wenn wir die uns bereits vorliegenden Daten nutzen wollen, um sie in den häufig auftretenden Rahmen einzufügen?

likelihood frequentist Praxeolitische
quelle

Der frequentistische Ansatz ermöglicht auch die Konditionierung, sodass ich nicht sicher bin, ob die Begründung im Zitat völlig angemessen ist.

Xi'an

@ Xi'an Auch wenn wir die Zensur der Probe oder die Wahrscheinlichkeit eines Defekts des zweiten Voltmeters in unsere Berechnungen einbezogen haben, besteht das Problem darin, dass wir den Versuchsaufbau nach dessen Durchführung ändern . Ich weiß nicht, ob sich das mit frequentistischen Methoden vereinbaren lässt.

Praxeolitic

Vielleicht überprüfen Sie diesen Eintrag auf dem Konditionalitätsprinzip . Obwohl ich kein Frequentist bin, bin ich kein großer Fan dieser Geschichte, da sie die Integration aller möglichen hypothetischen Ereignisse impliziert, ohne deren Reichweite zu definieren. Das ist eher karikaturistisch.

Xi'an

Dies verdient in der Tat nachdenkliche Diskussionen und Antworten. Bitte beachten Sie jedoch, dass "wenn die Statistikerin orthodox ist" und nicht unfähig oder gierig nach zusätzlicher Arbeit ist, sie feststellt, dass ihre ursprüngliche Verfahrenswahl (vermutlich zulässig) zulässig bleibt , da keine der ursprünglichen Beobachtungen zensiert wurde, und es daher keine Grundlage dafür gibt ändern Sie es. Die theoretische Grundlage der "frequentistischen" Statistik - die Entscheidungstheorie - hat für dieses "Wahrscheinlichkeitsprinzip" keine Bedeutung.

whuber

Ich weiß, was ich tun würde, vorausgesetzt, es sind genügend Daten vorhanden. Ich würde ein Histogramm machen. Ich würde das Histogramm anschauen. Wenn es bei 99 eine klare Grenze gäbe, die zu diesem Zeitpunkt ein einseitig abgeschnittenes Histogramm erstellt, würde ich vermuten, dass es abgeschnitten wurde. Ich würde mir auch Daten ansehen, von denen bekannt ist, dass sie nicht abgeschnitten sind, und ihre Kurvenformen untersuchen und herausfinden, ob ich ein Wahrscheinlichkeitsmodell erhalten kann, das zu dieser Aussage passt, z. B. eine Gammaverteilung, oder was nicht. Ich würde dann zu den abgeschnittenen Daten zurückkehren (nach Annahme) und sehen, ob der Rest davon auch gammaverteilt ist (oder was auch immer). Dann muss ich erklären, "Warum Gamma?" Wenn ja, bin ich fertig.

Carl

Antworten:

In frequentistischen Folgerung , wollen wir , um zu bestimmen , wie oft würde etwas geschehen, wenn ein gegebener stochastischer Prozess wiederholt realisiert wurde. Dies ist der Ausgangspunkt für die Theorie der p-Werte, Konfidenzintervalle und dergleichen. In vielen angewandten Projekten ist der "gegebene" Prozess jedoch nicht wirklich gegeben, und der Statistiker muss zumindest einige Arbeiten ausführen, um ihn zu spezifizieren und zu modellieren. Dies kann, wie in diesem Fall, ein überraschend vieldeutiges Problem sein.

Modellierung des Datengenerierungsprozesses

Nach den gegebenen Informationen scheint unser bester Kandidat der folgende zu sein:

Wenn das 100-V-Messgerät 100 V anzeigt, misst der Techniker erneut mit dem 1000-V-Messgerät, wenn es betriebsbereit ist. Ansonsten markiert er einfach 100V und fährt fort.

Aber ist das nicht ein bisschen unfair gegenüber unserem Ingenieur? Vorausgesetzt, er ist ein Ingenieur und nicht nur ein Techniker, versteht er wahrscheinlich, warum er nachmessen muss, wenn der erste Zähler 100 V anzeigt. Dies liegt daran, dass das Messgerät an der oberen Grenze seiner Reichweite gesättigt ist und daher nicht mehr zuverlässig ist. Vielleicht würde der Ingenieur das wirklich tun

Wenn das 100-V-Messgerät 100 anzeigt, misst der Techniker erneut mit dem 1000-V-Messgerät, wenn es betriebsbereit ist. Andernfalls markiert er einfach 100 V, fügt ein Pluszeichen hinzu, um die gesättigte Messung anzuzeigen, und fährt fort.

Beide Prozesse stimmen mit den uns vorliegenden Daten überein, sind jedoch unterschiedliche Prozesse und ergeben unterschiedliche Konfidenzintervalle. Prozess 2 ist derjenige, den wir als Statistiker bevorzugen würden. Wenn die Spannungen häufig deutlich über 100 V liegen, weist Prozess 1 einen potenziell katastrophalen Fehlermodus auf, bei dem die Messungen gelegentlich stark unterschätzt werden, da die Daten ohne unser Wissen zensiert werden. Das Konfidenzintervall wird entsprechend erweitert. Wir könnten dies abmildern, indem wir den Ingenieur bitten, uns mitzuteilen, wenn sein 1000-V-Messgerät nicht funktioniert. Dies ist jedoch nur ein weiterer Weg, um sicherzustellen, dass unsere Daten Prozess 2 entsprechen.

Wenn das Pferd den Stall bereits verlassen hat und wir nicht feststellen können, wann die Messungen durchgeführt werden und wann nicht, können wir versuchen, aus den Daten auf die Zeiten zu schließen, in denen das 1000-V-Messgerät nicht funktioniert. Durch die Einführung einer Inferenzregel in den Prozess wird effektiv ein neuer Prozess 1.5 erstellt, der sich sowohl von 1 als auch von 2 unterscheidet. Unsere Inferenzregel funktioniert manchmal und manchmal nicht, sodass das Konfidenzintervall von Prozess 1.5 im Vergleich zu den Prozessen 1 und 2 von mittlerer Größe ist 2.

Theoretisch ist nichts Falsches oder Verdächtiges an einer einzelnen Statistik mit drei verschiedenen Konfidenzintervallen, die mit drei verschiedenen plausibel repräsentativen stochastischen Prozessen assoziiert sind. In der Praxis wünschen sich nur wenige Verbraucher von Statistiken drei verschiedene Konfidenzintervalle. Sie wollen eine, die auf dem basiert, was tatsächlich passiert wäre, wenn das Experiment viele Male wiederholt worden wäre. In der Regel berücksichtigt der angewandte Statistiker das Domänenwissen, das er während des Projekts erworben hat, nimmt eine fundierte Schätzung vor und präsentiert das Konfidenzintervall, das mit dem ermittelten Prozess verbunden ist. Oder sie arbeitet mit dem Kunden zusammen, um den Prozess zu formalisieren.

So reagieren Sie auf neue Informationen

Trotz der Beharrlichkeit des Statistikers in der Geschichte erfordert die häufige Folgerung nicht, dass wir Messungen wiederholen, wenn wir neue Informationen erhalten, die darauf hindeuten, dass der erzeugende stochastische Prozess nicht ganz so ist, wie wir es uns ursprünglich vorgestellt hatten. Wenn der Prozess jedoch wiederholt werden soll, müssen wir sicherstellen, dass alle Wiederholungen mit dem Modellprozess übereinstimmen, der vom Konfidenzintervall angenommen wird. Wir können dies tun, indem wir den Prozess ändern oder unser Modell davon ändern.

Wenn wir den Prozess ändern, müssen wir möglicherweise frühere Daten verwerfen, die inkonsistent mit diesem Prozess erfasst wurden. Dies ist hier jedoch kein Problem, da alle von uns in Betracht gezogenen Prozessvarianten nur dann unterschiedlich sind, wenn einige der Daten über 100 V liegen, und dies ist in diesem Fall nie geschehen.

Was auch immer wir tun, Modell und Realität müssen in Einklang gebracht werden. Nur dann ist die theoretisch garantierte Frequentist Error Rate das, was der Kunde bei wiederholter Durchführung des Prozesses tatsächlich erhält.

Die bayesianische Alternative

Auf der anderen Seite sollten wir, wenn uns nur der wahrscheinliche Bereich des wahren Mittelwerts für diese Stichprobe am Herzen liegt, den Frequentismus ganz beiseite legen und die Leute suchen, die die Antwort auf diese Frage verkaufen - die Bayesianer. Wenn wir diesen Weg gehen, wird das ganze Feilschen um Kontrafakten irrelevant; Alles, was zählt, ist die Priorität und die Wahrscheinlichkeit. Im Gegenzug für diese Vereinfachung verlieren wir jede Hoffnung, eine Fehlerrate bei wiederholter Durchführung des "Experiments" zu garantieren.

Warum die Aufregung?

Diese Geschichte wurde so konstruiert, dass sie so aussieht, als würde der häufig auftretende Statistiker grundlos über alberne Dinge streiten. Mal ehrlich, wen interessieren diese dummen Kontrafakten? Die Antwort ist natürlich, dass sich jeder darum kümmern sollte. Lebenswichtige wissenschaftliche Gebiete leiden derzeit unter einer ernsten Replikationskrise , was darauf hindeutet, dass die Häufigkeit falscher Entdeckungen in der wissenschaftlichen Literatur viel höher ist als erwartet. Einer der Treiber dieser Krise, wenn auch keineswegs der einzige , ist der Anstieg des P-Hacking , bei dem Forscher mit vielen Variationen eines Modells spielen und dabei verschiedene Variablen kontrollieren, bis sie an Bedeutung gewinnen.

P-Hacking wurde in den populärwissenschaftlichen Medien und in der Blogosphäre ausgiebig verleumdet, aber nur wenige verstehen tatsächlich, was an P-Hacking falsch ist und warum. Im Gegensatz zur gängigen statistischen Meinung ist es nicht falsch, Ihre Daten vor, während und nach dem Modellierungsprozess zu betrachten. Was falsch ist, ist das Versäumnis, explorative Analysen zu melden und wie sie den Verlauf der Studie beeinflussten. Nur wenn wir uns den gesamten Prozess ansehen, können wir möglicherweise sogar feststellen, welches stochastische Modell für diesen Prozess repräsentativ ist und welche frequentistische Analyse für dieses Modell gegebenenfalls geeignet ist.

Die Behauptung, eine bestimmte frequentistische Analyse sei angebracht, ist eine sehr ernste Behauptung. Wenn Sie diese Behauptung aufstellen, müssen Sie sich an die Disziplin des von Ihnen gewählten stochastischen Prozesses binden, der ein komplettes System von Kontrafaktualen darüber beinhaltet, was Sie in verschiedenen Situationen getan hätten. Sie müssen sich tatsächlich an dieses System halten, damit die Frequentist-Garantie auf Sie zutrifft. Nur sehr wenige Forscher, insbesondere in Bereichen, in denen die Erforschung offener Grenzen im Vordergrund steht, halten sich an das System und geben ihre Abweichungen nicht gewissenhaft an. Aus diesem Grund haben wir jetzt eine Replikationskrise vor uns. (Einige angesehene Forscher haben argumentiert, dass diese Erwartung unrealistisch ist, eine Position, mit der ich sympathisiere, die jedoch den Rahmen dieses Beitrags sprengt.)

Es mag unfair erscheinen, dass wir veröffentlichte Artikel kritisieren, weil behauptet wird, sie hätten etwas getan, wenn die Daten anders gewesen wären. Dies ist jedoch die (etwas paradoxe) Natur des frequentistischen Denkens: Wenn Sie das Konzept des p-Werts akzeptieren, müssen Sie die Legitimität der Modellierung dessen respektieren, was unter alternativen Daten getan worden wäre. (Gelman & Loken, 2013)

In Studien, die relativ einfach und / oder standardisiert sind, wie z. B. in klinischen Studien, können wir uns auf Dinge wie mehrfache oder sequenzielle Vergleiche einstellen und die theoretische Fehlerrate beibehalten. In komplexeren und explorativeren Studien ist ein frequentistisches Modell möglicherweise nicht anwendbar, da der Forscher sich möglicherweise nicht aller getroffenen Entscheidungen bewusst ist , geschweige denn, dass sie explizit aufgezeichnet und präsentiert werden. In solchen Fällen sollte der Forscher (1) ehrlich und offen darüber sein, was getan wurde; (2) Präsentieren von p-Werten entweder mit starken Vorbehalten oder überhaupt nicht; (3) erwägen, andere Beweislinien vorzulegen, beispielsweise die vorherige Plausibilität der Hypothese oder eine Folge-Replikationsstudie.

Paul
quelle

Das sieht nach einer guten Antwort aus, aber ich muss sie irgendwann morgen im Kopf verdauen.

Praxeolitic

Bei der Beschreibung des Problems, wie angegeben, hört es sich so an, als würde ein Ingenieur behaupten, dass er immer Ihre Option # 2

Aksakal,

Vielleicht, aber er hat es nicht ausdrücklich gesagt. Große Fehler können gemacht werden, wenn Leute raten, was andere Leute denken, anstatt explizit zu diskutieren.

Paul

In Kursen zur angewandten Statistik wird zu wenig Wert auf den Formalismus der Parameterschätzung gelegt. Nehmen wir an, wir wollen eine Münze werfen und die Häufigkeit der Köpfe aufzeichnen. Wir gehen stillschweigend davon aus, dass die tatsächliche Verteilung Bernoulli mit p = q = 0,5 ist. Nach 1.000 Flips fragen wir uns, wie wahrscheinlich es ist, dass es sich um eine faire Münze handelt, indem wir die Realität mit der Theorie / Annahme vergleichen. In vielen Wissenschaftsbereichen wird jedoch davon ausgegangen, dass die Dinge normal verteilt sind, und dann werden T-Tests verwendet. Diese sind jedoch bedeutungslos, wenn die Renditen nicht normal verteilt sind.

eSurfsnake

Es scheint ein logischer Irrtum zu sein. Unabhängig davon, ob das 1000-Volt-Messgerät funktioniert hat oder nicht, sagt der Ingenieur, dass ich das andere Messgerät verwendet hätte, wenn die Messwerte über 100 gewesen wären. Aber woher sollte er wissen, dass die Spannung> 100 war, ohne das 1000-Volt-Messgerät benutzt zu haben?

Ich denke nicht, dass dieses Rätsel gut genug formuliert ist, um eine nützliche philosophische Frage zu beantworten. Praktisch stimme ich der Antwort zu, dass es richtig ist, ein Histogramm zu erstellen und zu prüfen, ob es abgeschnitten aussieht.

In keinem Fall befasst sich die Frage mit den entscheidenden Fragen wie: (1) Wie ist die bekannte (oder vermutete) Verteilung von Messwerten und warum? Gibt es einen Grund zu der Annahme, dass sie normal verteilt sind? (2) Wenn diese Frage nicht beantwortet wird, wie wurde ein Konfidenzintervall jemals geschätzt?

Um es auf das Äußerste zu bringen, wird eine Spannung gemessen. Angenommen, das Netzteil kann nicht mehr als 100 Volt liefern. Wäre das wahr, könnte es vermutlich keine Messungen über 100 Volt geben, daher ist das Messgerät irrelevant.

Es gibt eine ganze Menge mehr - in Bezug auf Prioritäten, Einschränkungen usw. -, die sich mit Schätzungen und Ähnlichem befassen, als die Frage abdeckt. Dies ist anders als das Paradoxon 'Monty Hall', das klar und sauber ist.

eSurfsnake
quelle

Der Sinn der Geschichte ist es, Interpretationen von Wahrscheinlichkeiten zu kritisieren, die auf hypothetischen Ereignissen beruhen, indem diese Interpretationen auf ein absurdes Extrem ausgedehnt werden. Die Themen, die Sie erwähnen, sind nebensächlich. Angeblich hätte der Ingenieur gewusst, dass er bei Bedarf die Voltmeter ändert (z. B. wird ein Wert von "100" angezeigt), und der Statistiker hat ansonsten Gründe, den von ihm verwendeten Ansatz zu verwenden (z. B. weiß er zufällig bereits, dass die Normalverteilung gut ist Modell für diese Lesungen).

Praxeolitic