Bei Hypothesentests stellt sich häufig die Frage, wie groß die Populationsvarianz ist. Meine Frage ist, wie können wir jemals die Populationsvarianz kennen? Wenn wir die gesamte Verteilung kennen würden, könnten wir genauso gut den Mittelwert der gesamten Bevölkerung kennen. Was ist dann der Sinn des Hypothesentests?
hypothesis-testing
variance
t-test
z-test
BioLogic
quelle
quelle
Antworten:
Ich bin mir nicht sicher, ob dieses Problem wirklich "oft" außerhalb von Statistik 101 auftritt (Einführung in die Statistik). Ich bin mir nicht sicher, ob ich es jemals gesehen habe. Auf der anderen Seite präsentieren wir das Material beim Unterrichten von Einführungskursen auf diese Weise, da es einen logischen Fortschritt darstellt: Sie beginnen mit einer einfachen Situation, in der es nur eine Gruppe gibt und Sie die Varianz kennen, und gehen dann dahin über, wo Sie es nicht tun Kennen Sie die Varianz und fahren Sie dann mit zwei Gruppen fort (jedoch mit gleicher Varianz) usw.
Um einen etwas anderen Punkt anzusprechen, fragen Sie, warum wir uns mit Hypothesentests beschäftigen würden, wenn wir die Varianz kennen würden, da wir daher auch den Mittelwert kennen müssen. Der letzte Teil ist vernünftig, aber der erste Teil ist ein Missverständnis: Der Mittelwert, den wir kennen würden, wäre der Mittelwert unter der Nullhypothese. Das testen wir. Betrachten Sie das Beispiel von @ StephanKolassa für IQ-Scores. Wir wissen, dass der Mittelwert 100 und die Standardabweichung 15 beträgt. Wir testen, ob sich unsere Gruppe (z. B. linkshändige Rothaarige oder vielleicht einführende Statistikstudenten) davon unterscheidet.
quelle
Oft wir nicht wissen , die Varianz als solche - aber wir haben eine sehr zuverlässige Schätzung aus einer anderen Probe. Zum Beispiel, hier ist ein Beispiel für die Beurteilung , ob durchschnittliches Gewicht von Pinguinen gegangen ist, wo wir den Mittelwert aus einer kleinen ish Probe verwenden, aber die Abweichung von einer größeren unabhängigen Stichprobe. Dies setzt natürlich voraus, dass die Varianz in beiden Populationen gleich ist.
Ein anderes Beispiel könnten klassische IQ-Skalen sein. Diese werden unter Verwendung sehr großer Stichproben auf einen Mittelwert von 100 und eine Standardabweichung von 15 normalisiert . Wir könnten dann eine bestimmte Stichprobe (z. B. 50 linkshändige Rothaarige) nehmen und fragen, ob ihr mittlerer IQ signifikant größer als 100 ist, wobei 15 ^ 2 als "bekannte" Varianz verwendet wird. Dies wirft natürlich erneut die Frage auf, ob die Varianz zwischen den beiden Stichproben wirklich gleich ist - schließlich testen wir bereits, ob die Mittelwerte unterschiedlich sind. Warum sollten also die Varianzen gleich sein?
Fazit: Ihre Bedenken sind berechtigt, und Tests mit bekannten Momenten dienen normalerweise nur didaktischen Zwecken. In Statistikkursen werden in der Regel sofort Tests mit geschätzten Momenten durchgeführt.
quelle
Die einzige Möglichkeit , die Populationsvarianz zu ermitteln, besteht darin, die gesamte Population zu messen.
Eine Messung der gesamten Bevölkerung ist jedoch häufig nicht möglich. Es erfordert Ressourcen wie Geld, Werkzeuge, Personal und Zugang. Aus diesem Grund beproben wir Populationen; das misst eine Teilmenge der Bevölkerung. Der Stichprobenprozess sollte sorgfältig und mit dem Ziel konzipiert werden, eine Stichprobenpopulation zu erstellen, die für die Population repräsentativ ist. Geben Sie zwei wichtige Überlegungen an - Stichprobengröße und Stichprobenverfahren.
Spielzeugbeispiel: Sie möchten die Gewichtsabweichung für die erwachsene Bevölkerung Schwedens schätzen. Es gibt ungefähr 9,5 Millionen Schweden, daher ist es unwahrscheinlich, dass Sie alle messen können. Daher müssen Sie eine Stichprobenpopulation messen, anhand derer Sie die tatsächliche Varianz innerhalb der Population abschätzen können.
Sie machen sich auf den Weg, um die schwedische Bevölkerung zu beproben. Dazu stehen Sie in der Stockholmer Innenstadt und stehen zufällig direkt vor der beliebten fiktiven schwedischen Burger-Kette Burger Kungen . Tatsächlich regnet es und es ist kalt (es muss Sommer sein), also stehen Sie im Restaurant. Hier wiegen Sie vier Personen.
Die Chancen stehen gut, dass Ihre Stichprobe die schwedische Bevölkerung nicht sehr gut widerspiegelt. Was Sie haben, ist eine Auswahl von Leuten in Stockholm, die in einem Burger-Restaurant sind. Dies ist eine schlechte Stichprobentechnik, da das Ergebnis wahrscheinlich dadurch verzerrt wird, dass die von Ihnen zu schätzende Population nicht angemessen dargestellt wird. Darüber hinaus haben Sie eine kleine StichprobengrößeSie haben also ein hohes Risiko, vier Personen auszuwählen, die sich in den Extremen der Bevölkerung befinden. entweder sehr leicht oder sehr schwer. Wenn Sie 1000 Personen befragt haben, ist es weniger wahrscheinlich, dass Sie einen Stichprobenfehler verursachen. Es ist weitaus weniger wahrscheinlich, 1000 ungewöhnliche Personen auszuwählen, als vier ungewöhnliche. Eine größere Stichprobe würde Ihnen zumindest eine genauere Schätzung des Mittelwerts und der Varianz des Gewichts bei den Kunden von Burger Kungen geben.
Das Histogramm zeigt den Effekt der Stichprobentechnik. Die Grauverteilung könnte die Bevölkerung Schwedens darstellen, die nicht bei Burger Kungen isst (Mittelwert 85 kg), während das Rot die Bevölkerung der Kunden von Burger Kungen (Mittelwert 100 kg) darstellen könnte. , und die blauen Striche könnten die vier Personen sein, die Sie probieren. Eine korrekte Probenahmetechnik müsste die Bevölkerung fair wiegen, und in diesem Fall sollten ~ 75% der Bevölkerung, also 75% der gemessenen Proben, keine Kunden von Burger Kungen sein.
Dies ist ein großes Problem bei vielen Umfragen. Beispielsweise werden Personen, die wahrscheinlich auf Umfragen zur Kundenzufriedenheit oder auf Meinungsumfragen bei Wahlen antworten, in der Regel überproportional von Personen mit extremen Ansichten vertreten. Menschen mit weniger starken Meinungen neigen dazu, sie eher zurückhaltend auszudrücken.
Beim Testen von Hypothesen geht es beispielsweise ( nicht immer ) darum, zu testen, ob sich zwei Populationen voneinander unterscheiden. ZB wiegen Kunden von Burger Kungen mehr als Schweden, die nicht bei Burger Kungen essen? Die Fähigkeit, dies genau zu testen, hängt von der richtigen Probenahmetechnik und einer ausreichenden Probengröße ab.
R-Code zum Testen machen all dies möglich:
Ergebnisse:
quelle
Manchmal wird die Populationsvarianz a priori festgelegt . Beispielsweise werden SAT-Scores so skaliert, dass die Standardabweichung 110 beträgt, und IQ-Tests werden so skaliert, dass sie eine Standardabweichung von 15 aufweisen .
quelle
Das einzige realistische Beispiel, an das ich denken kann, wenn der Mittelwert unbekannt ist, die Varianz jedoch bekannt ist, ist die zufällige Auswahl von Punkten auf einer Hypersphäre (in welcher Dimension auch immer) mit einem festen Radius und einem unbekannten Zentrum. Dieses Problem hat einen unbekannten Mittelwert (Mittelpunkt der Kugel), aber eine feste Varianz (quadratischer Radius der Kugel). Mir sind keine anderen realistischen Beispiele bekannt, bei denen es einen unbekannten Mittelwert, aber eine bekannte Varianz gibt. (Und um ganz klar zu sein: Nur eine externe Varianzschätzung aus anderen Daten zu haben, ist kein Beispiel für eine bekannte Varianz. Wenn Sie diese Varianzschätzung aus anderen Daten haben, warum haben Sie nicht auch eine entsprechende mittlere Schätzung aus denselben Daten? Daten?)
Meiner Ansicht nach sind statistische Einführungskurse, in denen Tests mit unbekanntem Mittelwert und bekannter Varianz unterrichtet werden, ein Anachronismus und werden als modernes Lehrmittel fehlgeleitet. Pädagogisch ist es weitaus besser, direkt mit dem T-Test für den Fall eines unbekannten Mittelwerts und einer unbekannten Varianz zu beginnen und den Z-Test als asymptotische Annäherung an diesen zu behandeln, der gilt, wenn die Freiheitsgrade groß sind (oder nicht) sogar die Mühe machen, den Z-Test überhaupt zu unterrichten). Die Anzahl der Situationen, in denen es eine bekannte Varianz, aber einen unbekannten Mittelwert geben würde, ist verschwindend gering, und es ist für die Schüler im Allgemeinen irreführend, diesen (wahnsinnig seltenen) Fall einzuführen.
quelle
Manchmal gibt es bei angewandten Problemen Gründe aus der Physik, der Wirtschaft usw., die uns über Varianz informieren und keine Unsicherheit aufweisen. In anderen Fällen ist die Bevölkerung möglicherweise begrenzt, und wir wissen möglicherweise einige Dinge über jeden, müssen jedoch Statistiken abrufen und durchführen, um den Rest zu lernen.
Im Allgemeinen ist Ihr Anliegen ziemlich berechtigt.
quelle