Wann ist eine Fisher-Z-Transformation angebracht?

13

Ich möchte eine Stichprobenkorrelation mit p-Werten auf Signifikanz testenr

H0:ρ=0,H1:ρ0.

Ich habe verstanden, dass ich die Fisher-Z-Transformation verwenden kann, um dies durch zu berechnen

zobs=n32ln(1+r1r)

und Finden des p-Wertes durch

p=2P(Z>zobs)

unter Verwendung der Standardnormalverteilung.

Meine Frage ist: Wie groß sollte sein, damit dies eine angemessene Transformation ist? Natürlich muss größer als 3 sein. In meinem Lehrbuch werden keine Einschränkungen erwähnt, aber auf Folie 29 dieser Präsentation heißt es, dass größer als 10 sein muss. Für die Daten, die ich in Betracht ziehen werde, habe ich etwa .nnn5n10

Gunnhild
quelle
2
Die Wikipedia-Seite listet den Standardfehler von der durch wobei die Stichprobengröße ist. Sie benötigen also mindestens 4 vollständige Paare. Mir sind keine darüber hinausgehenden Einschränkungen hinsichtlich des Stichprobenumfangs bekannt. zobs N1/N3N
COOLSerdash
8
Ich bin mir nicht sicher, wie sehr ich einer Präsentation von jemandem trauen soll, der seinen eigenen Universitätsnamen nicht buchstabieren kann. Im Ernst, seien Sie vorsichtig mit allen Ratschlägen, die implizieren, dass die Dinge oberhalb einer bestimmten Stichprobengröße in Ordnung und ansonsten bedenklich sind. Es ist eine Frage der Annäherungsqualität, die mit der Stichprobengröße und auch in Abhängigkeit von der Verteilung der Daten stetig zunimmt. Ein einfacher Rat ist, sehr vorsichtig zu sein, alles zu plotten und mit überlasteten Konfidenzintervallen zu überprüfen.
Nick Cox
1
Folie 17 beschreibt einen t-Test für den Sonderfall . ρ=0
whuber

Antworten:

8

Bei Fragen wie diesen würde ich einfach eine Simulation ausführen und prüfen, ob sich die Werte so verhalten, wie ich es erwartet habe. Der p- Wert ist die Wahrscheinlichkeit, dass zufällig eine Stichprobe gezogen wird, die mindestens so stark von der Nullhypothese abweicht wie die von Ihnen beobachteten Daten, wenn die Nullhypothese wahr ist. Wenn wir also viele solcher Stichproben hätten und eine von ihnen einen p- Wert von 0,04 hätte, würden wir erwarten, dass 4% dieser Stichproben einen Wert von weniger als 0,04 haben. Gleiches gilt für alle anderen möglichen p- Werte.pppp

Unten ist eine Simulation in Stata. Die Diagramme prüfen , ob die - Werte messen , was sie messen sollen, das heißt, sie zeigt , wie viel der Anteil der Proben mit p - Werte kleiner als die nominale p - Wert weicht von der Nenn p -Wertes. Wie Sie sehen, ist dieser Test bei so wenigen Beobachtungen etwas problematisch. Ob es für Ihre Forschung zu problematisch ist oder nicht, ist Ihr Urteilsvermögen.pppp

clear all
set more off

program define sim, rclass
    tempname z se
    foreach i of numlist 5/10 20(10)50 {
        drop _all
        set obs `i'
        gen x = rnormal()
        gen y = rnormal()
        corr x y 
        scalar `z'  = atanh(r(rho))
        scalar `se' = 1/sqrt(r(N)-3)
        return scalar p`i' = 2*normal(-abs(`z'/`se'))
    }
end

simulate p5 =r(p5)  p6 =r(p6)  p7  =r(p7)     ///
         p8 =r(p8)  p9 =r(p9)  p10 =r(p10)    ///
         p20=r(p20) p30=r(p30) p40 =r(p40)    ///
         p50=r(p50), reps(200000) nodots: sim 

simpplot p5 p6 p7 p8 p9 p10, name(small, replace) ///
    scheme(s2color) ylabel(,angle(horizontal)) 

Bildbeschreibung hier eingeben

simpplot p20 p30 p40 p50 , name(less_small, replace) ///
    scheme(s2color) ylabel(,angle(horizontal)) 

Bildbeschreibung hier eingeben

Maarten Buis
quelle
1
Versuchen Sie, 2,5 statt 3 von subtrahieren :-). n
whuber
5

FWIW sehe ich die Empfehlung in Myers & Well (Forschungsdesign und statistische Analysen, 2. Auflage, 2003, S. 492). In der Fußnote heißt es:N10

Genau genommen ist die Transformation um einen Betrag r / ( 2 ( N - 1 ) ) verzerrt : siehe Pearson und Hartley (1954, S. 29). Diese Vorspannung ist im Allgemeinen vernachlässigbar, es sei denn, N ist klein und ρ ist groß, und wir ignorieren sie hier.Zr/(2(N1))Nρ

Burak Aydin
quelle
3
Das scheint mir eine Antwort zu sein.
gung - Wiedereinsetzung von Monica
1

Ich bin mir nicht sicher, ob eine Fisher's Transformation geeignet ist. Für H 0 : ρ = 0 (NB: Nullhypothese für Population ρ , nicht Probe r ), ist die Stichprobenverteilung des Korrelationskoeffizienten bereits symmetrisch, so dass keine Notwendigkeit Schiefe zu verringern, was , was des Fisher ist z Ziele zu tun, und Sie können Schüler verwenden t Annäherung.zH0:ρ=0ρrzt

Angenommen, Sie meinen , dann hängt die Schiefe dieser PDF vom vorgeschlagenen Wert von ρ 0 ab , sodass es dann keine allgemeine Antwort darauf gibt, wie groß n sein sollte. Außerdem hängen die Mindestwerte von n vom Signifikanzniveau α ab , auf das Sie hinarbeiten. Sie haben seinen Wert nicht angegeben.H0:ρ=ρ00ρ0nnα

Nicks Argument ist fair: Die Annäherungen und Empfehlungen bewegen sich immer in einer Grauzone.

Wenn also Ihre Fisher-Näherung gut (= symmetrisch) genug ist, würde ich die für t- Verteilungen geltende Grenze , wobei s die Standardabweichung der Stichprobe ist. Wenn es der Normalität nahe genug ist, wird dies zu n ( 1,96 s / ϵ ) 2 .n(tα/2s/ϵ)2tsn(1.96s/ϵ)2

Lucozade
quelle
4
Ich denke, dies vereinfacht das "Ziel" von Fisher's , was zum Teil sowohl eine Frage des Zwecks als auch der Mathematik ist. Schiefe oder nicht ist nur ein Teil des Bildes; z wandelt eine begrenzte Verteilung in eine unbegrenzte um, was für Konfidenzintervalle wichtig ist. In der Tat würde ich argumentieren, dass die Verwendung von Fisher's z für Konfidenzintervalle viel fruchtbarer ist als der Versuch, einen P-Wert zu erhalten , es sei denn, eine Nullhypothese der Nullkorrelation ist auch die wissenschaftliche Frage . zzz
Nick Cox
1
Es tut mir leid, ich bin neu in der Fisher's Transformation. Soll ich es nur verwenden, wenn ich H 0 testen möchte : ρ = ρ 00 ? Der Grund für die Berechnung der P-Werte ist, dass ich die Holm-Bonferroni-Methode verwenden möchte, um die familienbezogene Fehlerrate bei mehreren Vergleichen zu steuern. Soll ich eher P-Werte aus der t- Verteilung eines Schülers berechnen? zH0:ρ=ρ00t
Gunnhild
3
Frage ist falsch herum, denke ich. Fisher's ist eine bessere Methode für Konfidenzintervalle und für Rückschlüsse im Allgemeinen. Die meisten Programme verwenden vermutlich eine t- basierte Berechnung zum Testen von ρ = 0 . Im Zweifelsfall kann es sehr wichtig sein zu zeigen, ob die Verwendung einer Methode einen Unterschied für Ihre Daten ausmacht. Wenn also die Methoden übereinstimmen, gibt es kein Problem. ztρ=0
Nick Cox
1
Weitere Informationen zur Transformation von Fisher finden Sie hier: stata-journal.com/article.html?article=pr0041z
Maarten Buis
Ok, thank you @NickCox! @Lucozade, what is the ϵ in the bound on n ?
Gunnhild