In Grundkursen zur Statistik für Studenten werden den Studenten (normalerweise?) Hypothesentests für den Mittelwert einer Grundgesamtheit beigebracht.
Warum liegt der Fokus auf dem Mittelwert und nicht auf dem Median? Ich vermute, dass es aufgrund des zentralen Grenzwertsatzes einfacher ist, den Mittelwert zu testen, aber ich würde gerne einige gebildete Erklärungen lesen.
hypothesis-testing
mean
inference
median
nafrtiti
quelle
quelle
Antworten:
Weil Alan Turing nach Ronald Fisher geboren wurde.
Früher mussten all diese Dinge vor dem Computer von Hand erledigt werden oder bestenfalls mit dem, was wir jetzt Taschenrechner nennen würden. Tests zum Vergleichen von Mitteln können auf diese Weise durchgeführt werden - es ist mühsam, aber möglich. Tests auf Quantile (wie den Median) wären auf diese Weise so gut wie unmöglich.
Beispielsweise beruht die Quantilregression auf der Minimierung einer relativ komplizierten Funktion. Dies wäre nicht von Hand möglich. Dies ist mit der Programmierung möglich. Siehe zB Koenker oder Wikipedia .
Quantile Regression hat weniger Annahmen als OLS-Regression und liefert mehr Informationen.
quelle
Ich möchte einen dritten Grund zu den von Harrell und Flom angegebenen korrekten Gründen hinzufügen. Der Grund dafür ist, dass wir die euklidische Entfernung (oder L2) und nicht die Manhattan-Entfernung (oder L1) als Standardmaß für die Nähe oder den Fehler verwenden. Wenn man eine Anzahl von Datenpunkten und möchte, dass eine einzelne Zahl diese abschätzt, ist es naheliegend, die Zahl zu finden, die den 'Fehler' minimiert. Diese Zahl erzeugt den kleinsten Unterschied zwischen der gewählten Zahl und die Zahlen, aus denen die Daten bestehen. In mathematischer Notation möchte man für eine gegebene Fehlerfunktion E . Nimmt man für E (x, y) die L2-Norm oder -Distanz, das heißt θ m i n θ ∈ R ( E ( θ , x 1 , ... x n ) = m i n θ ∈ R ( Σ i = n i = 1 E ( θ , x i ) ) , E ( x , y ) = ( x - y ) 2x1, … Xn θ m i nθ ∈ R( E( θ , x1, … Xn) = m i nθ ∈ R( ∑i = ni = 1E( θ , xich) ) E( x , y) = ( x - y)2 dann ist der Minimierer über alles der Mittelwert. Nimmt man die L1- oder Manhattan-Distanz, ist der Minimierer über alles der Median. Der Mittelwert ist also die natürliche mathematische Wahl - wenn man L2-Distanz verwendet! θ ∈ Rθ ∈ R θ ∈ R
quelle
Oft wird der Mittelwert über dem Median gewählt, nicht weil er repräsentativer, robuster oder aussagekräftiger ist, sondern weil Leute Schätzer mit Schätzer verwechseln. Anders ausgedrückt, einige wählen den Populationsmittelwert als die interessierende Menge, da bei einer Normalverteilung der Stichprobenmittelwert genauer ist als der Stichprobenmedian. Stattdessen sollten sie, wie Sie es getan haben, mehr über die wahre Menge an Interesse nachdenken.
Eine Seitenleiste: Wir haben ein nichtparametrisches Konfidenzintervall für den Populationsmedian, aber es gibt keine nichtparametrische Methode (außer vielleicht der numerisch intensiven empirischen Wahrscheinlichkeitsmethode), um ein Konfidenzintervall für den Populationsmittelwert zu erhalten. Wenn Sie verteilungsfrei bleiben möchten, können Sie sich auf den Median konzentrieren.
Beachten Sie, dass der zentrale Grenzwertsatz weitaus weniger nützlich ist, als es scheint, wie an anderer Stelle auf dieser Site erörtert. Es wird effektiv angenommen, dass die Varianz bekannt ist oder dass die Verteilung symmetrisch ist und eine solche Form aufweist, dass die Stichprobenvarianz ein kompetitiver Schätzer der Dispersion ist.
quelle