Ich habe einen Datensatz mit zehntausenden Beobachtungen von medizinischen Kostendaten. Diese Daten sind stark nach rechts verschoben und enthalten viele Nullen. Es sieht für zwei Personengruppen so aus (in diesem Fall zwei Altersgruppen mit jeweils> 3000 Beobachtungen):
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4536.0 302.6 395300.0
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4964.0 423.8 721700.0
Wenn ich Welchs T-Test mit diesen Daten durchführe, erhalte ich ein Ergebnis zurück:
Welch Two Sample t-test
data: x and y
t = -0.4777, df = 3366.488, p-value = 0.6329
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2185.896 1329.358
sample estimates:
mean of x mean of y
4536.186 4964.455
Ich weiß, dass es nicht richtig ist, einen T-Test für diese Daten zu verwenden, da es so schlecht nicht normal ist. Wenn ich jedoch einen Permutationstest für die Differenz der Mittelwerte verwende, erhalte ich fast immer den gleichen p-Wert (und er kommt mit mehr Iterationen näher).
Verwendung des perm-Pakets in R und permTS mit genauem Monte Carlo
Exact Permutation Test Estimated by Monte Carlo
data: x and y
p-value = 0.6188
alternative hypothesis: true mean x - mean y is not equal to 0
sample estimates:
mean x - mean y
-428.2691
p-value estimated from 500 Monte Carlo replications
99 percent confidence interval on p-value:
0.5117552 0.7277040
Warum kommt die Permutationstest-Statistik dem t.test-Wert so nahe? Wenn ich die Daten protokolliere, erhalte ich einen t.test p-Wert von 0,28 und den gleichen vom Permutationstest. Ich dachte, die T-Test-Werte wären mehr Müll als das, was ich hier bekomme. Dies trifft auf viele andere Datensätze zu, die mir gefallen, und ich frage mich, warum der T-Test anscheinend funktioniert, wenn er nicht funktionieren sollte.
Ich mache mir hier Sorgen, dass die individuellen Kosten nicht gleich sind. Es gibt viele Untergruppen von Menschen mit sehr unterschiedlichen Kostenverteilungen (Frauen gegen Männer, chronische Erkrankungen usw.), die die iid-Anforderung für einen zentralen Grenzwertsatz in Frage zu stellen scheinen, oder sollte ich mir keine Sorgen machen über das?
quelle
Antworten:
Weder der t-Test noch der Permutationstest können einen Mittelwertunterschied zwischen zwei derart ungewöhnlich verzerrten Verteilungen feststellen. Somit geben beide anodyne p-Werte an, die überhaupt keine Bedeutung anzeigen. Es geht nicht darum, dass sie sich einig zu sein scheinen; es ist so, dass sie einfach nicht widersprechen können, weil es ihnen schwerfällt, überhaupt einen Unterschied festzustellen!
Überlegen Sie sich für eine gewisse Intuition, was passieren würde, wenn sich ein einzelner Wert in einem Datensatz ändern würde . Nehmen wir zum Beispiel an, dass das Maximum von 721.700 im zweiten Datensatz nicht vorgekommen ist. Der Mittelwert wäre um ungefähr 721700/3000 gefallen, was ungefähr 240 entspricht. Der Unterschied im Mittelwert beträgt jedoch nur 4964-4536 = 438, nicht einmal doppelt so groß. Dies legt nahe (obwohl es nicht beweist), dass ein Vergleich der Mittel den Unterschied nicht signifikant finden würde.
Wir können jedoch bestätigen, dass der T-Test nicht anwendbar ist. Generieren wir einige Datensätze mit denselben statistischen Merkmalen wie diesen. Zu diesem Zweck habe ich Mischungen erstellt, in denen
In diesen Simulationen hat sich herausgestellt, dass die Maximalwerte auch nicht weit von den angegebenen Maxima entfernt sind.
Replizieren wir den ersten Datensatz 10.000 Mal und verfolgen den Mittelwert. (Die Ergebnisse werden fast gleich sein, wenn wir dies für den zweiten Datensatz tun.) Das Histogramm dieser Mittelwerte schätzt die Stichprobenverteilung des Mittelwerts. Der t-Test ist gültig, wenn diese Verteilung ungefähr normal ist. Das Ausmaß, in dem es von der Normalität abweicht, gibt an, inwieweit die Verteilung der Schüler fehlerhaft ist. Als Referenz habe ich auch die PDF-Datei der Normalverteilung (in Rot) gezeichnet, die zu diesen Ergebnissen passt.
Wir können nicht viele Details erkennen, da es einige erstaunliche große Ausreißer gibt. (Das ist eine Manifestation dieser Sensibilität der von mir erwähnten Mittel.) Es gibt 123 von ihnen - 1,23% - über 10.000. Konzentrieren wir uns auf den Rest, damit wir die Details sehen können und weil diese Ausreißer möglicherweise aus der angenommenen Lognormalität der Verteilung resultieren, was für den ursprünglichen Datensatz nicht unbedingt der Fall ist.
Das ist immer noch stark verzerrt und weicht sichtbar von der normalen Näherung ab, was eine ausreichende Erklärung für die in der Frage beschriebenen Phänomene liefert. Es gibt uns auch ein Gefühl dafür, wie groß ein Mittelwertunterschied bei einem Test sein könnte: Er müsste etwa 3000 oder mehr betragen, um signifikant zu erscheinen. Umgekehrt könnte die tatsächliche Differenz von 428 erkannt werden, vorausgesetzt, Sie hatten ungefähr mal so viele Daten (in jeder Gruppe).( 3000 / 428 )2= 50 Angesichts der 50-fachen Datenmenge schätze ich, dass die Fähigkeit, diesen Unterschied bei einem Signifikanzniveau von 5% zu erkennen, bei 0,4 liegt (was nicht gut ist, aber Sie hätten zumindest eine Chance).
Hier ist der
R
Code, der diese Zahlen hervorgebracht hat.quelle
Wenn n groß ist (wie 300, sogar weit unter 3000), ist der t-Test im Wesentlichen der gleiche wie der z-Test. Das heißt, der t-Test wird nichts anderes als eine Anwendung des zentralen Grenzwertsatzes, der besagt, dass die MEAN für jede Ihrer beiden Gruppen fast genau normalverteilt ist (auch wenn die Beobachtungen, die den beiden Mitteln zugrunde liegen, weit davon entfernt sind, normal zu sein verteilt!). Dies ist auch der Grund, warum Ihre typische T-Tabelle keine Werte für n größer als 1000 anzeigt (zum Beispiel diese T-Tabelle) . Daher wundere ich mich nicht, dass Sie so gute Ergebnisse erzielen.
Edit: Ich scheine das Ende der Schiefe und ihre Bedeutung unterschätzt zu haben. Während mein Punkt oben unter weniger extremen Umständen verdient ist , ist Whubers Antwort auf die Frage insgesamt viel besser.
quelle
Ich weiß, dass diese Antwort viel zu spät ist. Ich habe jedoch einen Doktortitel in Gesundheitsforschung, daher arbeite ich viel mit Gesundheitsdaten, einschließlich Kostendaten.
Ich weiß nicht, welche Daten das OP hatte. Wenn es sich um Querschnittsdaten handelte, war dies wahrscheinlich mit Recht eine IID. Unabhängigkeit bedeutet, dass jede Einheit, also jede Person, unabhängig ist. Das ist sehr wahrscheinlich zu rechtfertigen. In Bezug auf eine identische Verteilung können die Daten als alle Daten modelliert werden, die beispielsweise aus einer Gammaverteilung in einem verallgemeinerten linearen Modell mit einer Protokollverknüpfung stammen. Dies ist, was Menschen in der Praxis häufig tun. Oder wenn Sie Lust auf Phantasie haben, gibt es wahrscheinlich Hürdenmodelle (beliebt in der Ökonometrie), die sich mit den überschüssigen Nullen befassen. Was übrigens bei den Gesundheitsausgaben ziemlich häufig vorkommt. Das OP ist technisch korrekt, da die Daten nicht unbedingt identisch verteilt sind, dh der Mittelwert und die Varianz ändern sich mit dem Alter, aber es ist eine praktikable Annahme in mehreren Regressionsmodellen.
Wenn jede Person länger als ein Jahr im Datensatz wäre, wären die Daten nicht IID. Dafür stehen komplexere Modelle zur Verfügung. Eine relativ einfache davon wäre wahrscheinlich die verallgemeinerte Schätzung von Gleichungen, Gammaverteilung und logarithmischer Verknüpfung unter der Annahme einer austauschbaren Arbeitskorrelation. Wenn diese Daten aus öffentlich zugänglichen Umfragedaten stammen, ist die Wahrscheinlichkeit einer Stichprobe nicht gleich hoch. Bei vielen dieser Umfragen werden mehrere Personen in jedem Haushalt befragt. Außerdem wird die Bevölkerung geschichtet und einige Gruppen (z. B. ethnische Minderheiten) werden überstichprobenartig erfasst. Der Benutzer müsste das korrigieren.
Ich benutze keine T-Tests, besonders nicht für Beobachtungsdaten. Es gibt zu viele Störfaktoren, daher sollten Sie sie in einem (verallgemeinerten) linearen Modell anpassen. Daher kann ich die Fragen, die sich speziell auf T-Tests beziehen, nicht kommentieren.
quelle