Statistischer Test für einen signifikant weiter von der Grundgesamtheit entfernten Wert bedeutet: Ist es ein Z-Test oder ein T-Test?

12

Wie wichtig ist ein Wert im Vergleich zu einer Werteliste? In den meisten Fällen wird bei statistischen Tests ein Probensatz mit einer Population verglichen. In meinem Fall wird die Stichprobe mit einem Wert erstellt und mit der Grundgesamtheit verglichen.

Ich bin ein Dilettant im Testen statistischer Hypothesen, der mit dem vielleicht grundlegendsten Problem konfrontiert ist. Es ist nicht nur ein Test, sondern Hunderte von ihnen. Ich habe einen Parameterraum und muss für jeden Punkt einen Signifikanztest durchführen. Für jede Parameterkombination werden sowohl Wert- als auch Hintergrundliste (Grundgesamtheit) generiert. Dann bestelle ich dies nach p-Wert und finde interessante Parameterkombinationen. Tatsächlich ist es auch wichtig, Parameterkombinationen zu finden, bei denen dieser p-Wert hoch ist (Nicht-Signifikanz).

Nehmen wir also einen einzigen Test: Ich habe einen berechneten Wert aus einem ausgewählten Satz und einen Hintergrundsatz von Werten, die durch Auswahl eines zufälligen Trainingssatzes berechnet wurden. Der berechnete Wert ist 0,35 und der Hintergrundsatz ist (wahrscheinlich?) Normalverteilt mit einem Mittelwert von 0,25 und einem sehr engen Standardwert (e-7). Ich habe eigentlich keine Kenntnisse über die Verteilung, da die Samples von etwas anderem berechnet werden, es sich nicht um Zufallszahlen-Samples von irgendeiner Verteilung handelt, also ist Hintergrund das richtige Wort dafür.

Die Nullhypothese würde lauten: "Der Mittelwert des Stichprobentests entspricht meinem berechneten Wert von 0,35". Wann sollte ich dies als Z-Test oder T-Test betrachten? Ich möchte, dass der Wert deutlich über dem Bevölkerungsdurchschnitt liegt, daher handelt es sich um einen einseitigen Test.

Ich bin etwas verwirrt, was als Stichprobe zu betrachten ist: Ich habe entweder eine Stichprobe (die Beobachtung) und die Hintergrundliste als Grundgesamtheit ODER meine Stichprobe ist die Hintergrundliste und ich vergleiche diese mit der Gesamtheit (ohne Stichprobe). Grundgesamtheit, die nach der Nullhypothese den gleichen Mittelwert haben soll. Sobald dies entschieden ist, geht der Test in verschiedene Richtungen, denke ich.

Wie berechne ich den p-Wert eines T-Tests? Ich würde es gerne selbst berechnen, anstatt eine R / Python / Excel-Funktion zu verwenden (ich weiß bereits, wie man das macht), daher muss ich zuerst die richtige Formel festlegen.

Zunächst vermute ich, dass ein T-Test etwas zu allgemein ist, da in meinem Fall der T-Test mit der Stichprobengröße verknüpft wäre und die Form hätte: wobei und s ist , die Stichprobe im Vergleich zur Grundgesamtheit. Ich habe also zwei Fälle: Entweder ist meine Stichprobengröße die Größe der Population, was "ich schätze", dass ich es mit einem Z-Test zu tun habe, oder die Populationsstatistik (n und std) ist unbekannt, aber die Verteilung kann in sein Irgendwie angenähert und ich habe es wirklich mit einem T-Test zu tun. In jedem Fall sind meine folgenden Fragen:

T=Z/s,
Z=X¯σn
s=σ^/σ
  1. Wie berechne ich einen p-Wert? (dh ohne eine R / Python / Excel-Funktion oder eine p-Wert-Tabellensuche zu verwenden, sondern sie tatsächlich basierend auf einer Formel zu berechnen, weil ich wissen möchte, was ich tue)
  2. Wie entscheide ich einen Signifikanzschwellenwert basierend auf meiner Stichprobengröße? (Eine Formel wäre schön)
Grokkaine
quelle
3
Warum testen? Chebyshevs Ungleichung impliziert, dass es in jeder realen Population mathematisch unmöglich ist, dass der größte Wert SDs über dem Mittelwert liegt, aber das haben Sie beobachtet ( ). Daher die nicht aus Ihrer Bevölkerung, Punkt. 1060,35=106×10-7+0,250,35
Whuber
1
@grokkaine - Diese Frage wirft interessante Fragen auf und scheint wertvoll zu sein, aber ich würde sie umso wertvoller finden, wenn Sie sie ein wenig bearbeiten und dabei darauf achten, dass Ihre Begriffe sehr präzise sind.
Rolando2
Es ist nicht nur ein Test, sondern Hunderte von ihnen. Ich habe einen Parameterraum und muss für jeden Punkt einen Signifikanztest durchführen. Für jede Parameterkombination werden sowohl Wert- als auch Hintergrundliste (Grundgesamtheit) generiert. Dann bestelle ich dies nach p-Wert und finde interessante Parameterkombinationen. Tatsächlich ist es auch wichtig, Parameterkombinationen zu finden, bei denen dieser p-Wert hoch ist (Nicht-Signifikanz). Ich werde versuchen, meinen Beitrag etwas später zu bearbeiten.
Grokkaine

Antworten:

9

Sie werfen eine interessante Frage auf. Wenn Sie als erstes eine Beobachtung von 0,35, einen Mittelwert von 0,25 und eine Standardabweichung von 1/10 ^ 7 haben (so interpretiere ich Ihr e ^ -7-Bit), brauchen Sie wirklich keine Hypothese aufzustellen Testübung. Ihre Beobachtung von 0,35 unterscheidet sich stark vom Mittelwert von 0,25, da sie einige Tausend Standardabweichungen vom Mittelwert und wahrscheinlich einige Millionen Standardfehler vom Mittelwert entfernt ist.

Der Unterschied zwischen dem Z-Test und dem T-Test bezieht sich hauptsächlich auf die Probengröße. Bei Stichproben unter 120 sollten Sie den t-Test verwenden, um p-Werte zu berechnen. Wenn die Stichprobengröße größer ist, spielt es keine große Rolle, welche Sie verwenden. Es macht Spaß, es unabhängig von der Stichprobengröße in beide Richtungen zu berechnen und zu beobachten, wie wenig Unterschied zwischen den beiden Tests besteht.

Was die Berechnung selbst angeht, können Sie den t stat berechnen, indem Sie die Differenz zwischen Ihrer Beobachtung und dem Mittelwert dividieren und durch den Standardfehler dividieren. Der Standardfehler ist die Standardabweichung geteilt durch die Quadratwurzel der Stichprobengröße. Jetzt haben Sie Ihren Status. Um einen p-Wert zu berechnen, gibt es meines Erachtens keine Alternative, als Ihren t-Wert am Testtisch nachzuschlagen. Wenn Sie eine einfache Excel-Alternative akzeptieren, ist TDIST (t stat value, DF, 1 oder 2 für 1 oder 2 tail p value) der Trick. Um einen p-Wert unter Verwendung von Z zu berechnen, lautet die Excel-Formel für einen 1-Schwanz-Test: (1 - NORMSDIST (Z-Wert). Der Z-Wert ist der gleiche wie der t-Wert (oder die Anzahl der Standardfehler, die vom Mittelwert abweichen).

Genau wie eine Einschränkung können diese Methoden des Hypothesentests durch die Stichprobengröße verzerrt werden. Mit anderen Worten, je größer Ihre Stichprobe ist, desto kleiner ist Ihr Standardfehler, desto höher ist Ihr resultierender Z-Wert oder t stat, desto niedriger ist der p-Wert und desto höher ist Ihre statistische Signifikanz. Als Abkürzung in dieser Logik führen große Stichprobengrößen zu einer hohen statistischen Signifikanz. Eine hohe statistische Signifikanz in Verbindung mit einer großen Stichprobengröße kann jedoch völlig unerheblich sein. Mit anderen Worten, statistisch signifikant ist eine mathematische Phrase. Dies bedeutet nicht unbedingt signifikant (nach Webster-Wörterbuch).

Um dieser großen Stichprobenfalle zu entkommen, haben Statistiker die Methoden der Effektgröße angewendet. Letztere verwenden als Einheit für den statistischen Abstand zwischen zwei Beobachtungen die Standardabweichung anstelle des Standardfehlers. Mit einem solchen Framework hat die Stichprobengröße keinen Einfluss auf Ihre statistische Signifikanz. Wenn Sie die Effektgröße verwenden, bewegen Sie sich in der Regel von den p-Werten weg und zu Konfidenzintervallen, die im Klartext aussagekräftiger sein können.

Sympa
quelle
Vielen Dank für die Antwort, ich bin ein bisschen verwirrt, was als Stichprobe zu betrachten ist: Ich habe entweder eine Stichprobe (die Beobachtung) und die Hintergrundliste als Grundgesamtheit ODER meine Stichprobe ist die Hintergrundliste und ich vergleiche das mit die gesamte (nicht abgetastete) Population, die nach der Nullhypothese den gleichen Mittelwert haben soll. Sobald dies entschieden ist, geht der Test in verschiedene Richtungen, denke ich.
Grokkaine
Verwenden Sie alle Beobachtungen, die Sie als Probe haben (wie auch immer Sie es nennen). Und berechnen Sie den statistischen Abstand zwischen Ihrer einen Beobachtung und dem Mittelwert der Probe, wie definiert. Berechnen Sie die Standardabweichung und den Standardfehler Ihrer Probe. Der statistische Abstand Ihrer Beobachtung vom Mittelwert ist: (Beobachtung - Mittelwert) / Standardfehler = t stat. Verwenden Sie die Excel TDIST-Funktion (DF, t stat, 1 (für einen Schwanz)) und Sie erhalten Ihren p-Wert.
Sympa
5

Hypothesentests beziehen sich immer auf die Grundgesamtheit. Wenn Sie eine Aussage über die Probe machen möchten, müssen Sie nicht testen (vergleichen Sie einfach, was Sie sehen). Häufige Anwender glauben an Asymptotik. Machen Sie sich also keine Sorgen über die Verteilung Ihrer Daten, solange Ihre Stichprobe groß ist. Z-Test und T-Test verhalten sich bei der Berechnung der Teststatistik grundsätzlich gleich, lediglich die kritischen Werte werden aus unterschiedlichen Verteilungen erhalten (Normal vs Student-T). Wenn Ihre Stichprobe groß ist, ist der Unterschied gering.

Zu Q1: Schauen Sie einfach von der T-Verteilung mit n-1 Freiheitsgraden nach, wobei n die Stichprobengröße ist.

Zu Q2: Sie berechnen den Schwellenwert basierend auf Ihrem gewünschten Signifikanzniveau für einen Z-Test und basierend auf dem Signifikanzniveau für die Stichprobengröße im Fall des T-Tests.

Aber im Ernst, sollten Sie einige Grundlagen überprüfen.

joint_p
quelle
Danke für die Antwort. Es war in der Tat die t-dist, die ich benutzte, aber ich wollte auch verstehen, warum ich sie benutze. Wie definieren Sie eine "große" Stichprobe und wie unterscheidet sich der p-Wert? Was noch wichtiger ist: Woher wissen wir, wann eine Verteilung normal oder studentisch ist? Gibt es einen statistischen Test dafür? Vielleicht verwenden Sie den Kolmogorov-Smirnov-Test für die zweite und hmm .. was für die erste zu verwenden?
Grokkaine
2
groß ... nun, Z und t konvergieren, beginnend mit n = 60. Vergleichen Sie einfach die p-Werte, die Sie aus beiden Tests erhalten. Die Annahme der t / Normal-Verteilung hängt nicht von der Verteilung der zugrunde liegenden Daten ab. Es wird davon ausgegangen, dass die Stichprobenverteilung des Mittelwerts normal ist. Selbst wenn die Variable, die Sie testen, Gamma ist, gilt dies weiterhin. Mit n = 200 sollte es gut funktionieren. Auch hier basiert alles auf frequentistischen Statistiken.
joint_p
+1 für den Kommentar zu Hypothesentests, der sich immer auf die Grundgesamtheit bezieht, -1 für den Hinweis, dass der Fragesteller eine Stichprobe von 1 hat.
Peter Ellis
1
Ich war mir nicht sicher, was "Ich habe einen berechneten Wert und eine Hintergrundmenge zufällig generierter Werte. Der berechnete Wert ist 0,35" bedeuten soll ... Ich dachte, dies impliziert irgendwie, dass es mehr als eine Beobachtung gibt.
joint_p
Kommentare aus den anderen Absätzen erneut veröffentlichen: Ich bin ein wenig verwirrt, was als Stichprobe anzusehen ist: Ich habe entweder eine Stichprobe (die Beobachtung) und die Hintergrundliste als Grundgesamtheit ODER meine Stichprobe ist die Hintergrundliste und Ich vergleiche das mit der gesamten (nicht abgetasteten) Population, die nach der Nullhypothese den gleichen Mittelwert haben sollte. Sobald dies entschieden ist, geht der Test in verschiedene Richtungen, denke ich.
Grokkaine