Unabhängigkeit von Mittelwert und Varianz diskreter Gleichverteilungen

9

In den Kommentaren unter einem meiner Beiträge diskutierten Glen_b und ich, wie diskrete Verteilungen notwendigerweise einen abhängigen Mittelwert und eine abhängige Varianz haben.

Für eine Normalverteilung ist es sinnvoll. Wenn ich Ihnen sage , haben Sie keine Ahnung, was ist, und wenn ich Ihnen sage , haben Sie keine Ahnung, was ist. (Bearbeitet, um die Stichprobenstatistik und nicht die Populationsparameter zu berücksichtigen.)x¯s2s2x¯

Aber gilt für eine diskrete Gleichverteilung nicht dieselbe Logik? Wenn ich den Mittelpunkt der Endpunkte schätze, kenne ich den Maßstab nicht, und wenn ich den Maßstab schätze, kenne ich den Mittelpunkt nicht.

Was läuft falsch mit meinem Denken?

BEARBEITEN

Ich habe Jbowmans Simulation gemacht. Dann habe ich es mit der Wahrscheinlichkeitsintegraltransformation (glaube ich) getroffen, um die Beziehung ohne Einfluss der Randverteilungen zu untersuchen (Isolierung der Kopula).

Data.mean <- Data.var <- rep(NA,20000)
for (i in 1:20000){     
    Data <- sample(seq(1,10,1),100,replace=T)
    Data.mean[i] <- mean(Data)
    Data.var[i] <- var(Data)    
}
par(mfrow=c(2,1))
plot(Data.mean,Data.var,main="Observations")
plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var),main="'Copula'")

Geben Sie hier die Bildbeschreibung ein

In dem kleinen Bild, das in RStudio angezeigt wird, sieht das zweite Diagramm so aus, als hätte es eine einheitliche Abdeckung des Einheitsquadrats, also Unabhängigkeit. Beim Vergrößern gibt es deutliche vertikale Bänder. Ich denke, das hat mit der Diskretion zu tun und ich sollte nicht hineinlesen. Ich habe es dann für eine kontinuierliche Gleichverteilung auf versucht .(0,10)

Data.mean <- Data.var <- rep(NA,20000)
for (i in 1:20000){

    Data <- runif(100,0,10)
    Data.mean[i] <- mean(Data)
    Data.var[i] <- var(Data)

}
par(mfrow=c(2,1))
plot(Data.mean,Data.var)
plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var))

Geben Sie hier die Bildbeschreibung ein

Dieser sieht wirklich so aus, als hätte er Punkte, die gleichmäßig über das Einheitsquadrat verteilt sind, daher bin ich skeptisch, dass und unabhängig sind.x¯s2

Dave
quelle
Das ist ein interessanter Ansatz, den Sie dort gewählt haben. Ich muss darüber nachdenken.
Jbowman
Die Abhängigkeit wird (notwendigerweise) bei größeren Stichproben schwächer, so dass es schwer zu erkennen ist. Versuchen Sie es mit kleineren Stichprobengrößen wie n = 5,6,7, und Sie werden es leichter sehen.
Glen_b -Reinstate Monica
@Glen_b Du hast recht. Es gibt eine offensichtlichere Beziehung, wenn ich die Stichprobengröße verkleinere. Sogar in dem Bild, das ich gepostet habe, scheint es in der unteren rechten und linken Ecke einige Cluster zu geben, die im Diagramm für die kleinere Stichprobengröße vorhanden sind. Zwei Follow-ups. 1) Wird die Abhängigkeit notwendigerweise schwächer, weil die Populationsparameter unabhängig voneinander variiert werden können? 2) Es scheint falsch, dass die Statistiken irgendeine Abhängigkeit haben würden, aber sie tun es eindeutig. Was verursacht das?
Dave
1
Eine Möglichkeit, einen Einblick zu erhalten, besteht darin, die Besonderheiten der Proben zu untersuchen, die in die Hörner oben in Bruce 'Plots gelangen. Beachten Sie insbesondere, dass Sie bei n = 5 die größtmögliche Varianz erhalten, wenn alle Punkte nahe beieinander liegen auf 0 oder 1, aber da es 5 Beobachtungen gibt, benötigen Sie 3 an einem Ende und 2 am anderen, sodass der Mittelwert nahe 0,4 oder 0,6, aber nicht nahe 0,5 liegen muss (da ein Punkt in der Mitte die Varianz a verringert bit). Wenn Sie eine starke Schwanzverteilung hätten, würden sowohl der Mittelwert als auch die Varianz am stärksten von der extremsten Beobachtung beeinflusst ... ctd
Glen_b -Reinstate Monica
1
ctd ... und in dieser Situation erhalten Sie eine starke Korrelation zwischen und s (zwei große "Hörner" auf beiden Seiten des Bevölkerungszentrums auf einem Diagramm von sd gegen Mittelwert) - mit der Uniform ist diese Korrelation etwas negativ. ... Bei großen Proben werden Sie auf das asymptotische Verhalten von ( ˉ X , s 2 X ) zusteuern , das letztendlich normal ist. |x¯- -μ|s(X.¯,sX.2)
Glen_b -Reinstate Monica

Antworten:

4

Die Antwort von jbowman (+1) erzählt einen Großteil der Geschichte. Hier ist ein bisschen mehr.

(a) Für Daten aus einer kontinuierlichen Gleichverteilung sind der Stichprobenmittelwert und die SD nicht korreliert, aber nicht unabhängig. Die "Umrisse" der Handlung betonen die Abhängigkeit. Bei kontinuierlichen Verteilungen gilt die Unabhängigkeit nur für den Normalbereich.

Geben Sie hier die Bildbeschreibung ein

set.seed(1234)
m = 10^5; n = 5
x = runif(m*n);  DAT = matrix(x, nrow=m)
a = rowMeans(DAT)
s = apply(DAT, 1, sd)
plot(a,s, pch=".")

einsP.(X.¯=ein)>0,P.(S.=s)>0,P.(X.¯=ein,X.=s)=0.

Geben Sie hier die Bildbeschreibung ein

set.seed(2019)
m = 20000;  n = 5;  x = sample(1:5, m*n, rep=T)
DAT = matrix(x, nrow=m)
a = rowMeans(DAT)
s = apply(DAT, 1, sd)
plot(a,s, pch=20)

(c) Eine gerundete Normalverteilung ist nicht normal. Diskretion verursacht Abhängigkeit.

Geben Sie hier die Bildbeschreibung ein

set.seed(1776)
m = 10^5; n = 5
x = round(rnorm(m*n, 10, 1));  DAT = matrix(x, nrow=m)
a = rowMeans(DAT);  s = apply(DAT, 1, sd)
plot(a,s, pch=20)

B.etein(.1,.1),B.etein(1,1)U.nichf(0,1).

Geben Sie hier die Bildbeschreibung ein

set.seed(1066)
m = 10^5; n = 5
x = rbeta(m*n, .1, .1);  DAT = matrix(x, nrow=m)
a = rowMeans(DAT);  s = apply(DAT, 1, sd)
plot(a,s, pch=".")

Nachtrag pro Kommentar.

Geben Sie hier die Bildbeschreibung ein

BruceET
quelle
x¯s2x¯=0s2=1s2=100
Das Kriterium der Unabhängigkeit ist anspruchsvoll. Mangelnde Unabhängigkeit zwischen zwei Wohnmobilen garantiert nicht, dass es einfach ist , Informationen über eines zu erhalten, wenn man den Wert des anderen kennt. // In (d) nicht sicher, was ECDF von A oder S enthüllen würde. // Das Streudiagramm in (d) zeigt 6 'Punkte', Bilder unter Transformation von 32 Eckpunkten eines 5-d-Hyperwürfels mit Multiplizitäten 1, 5, 10, 10, 5, 1 (von links nach rechts). Multiplizitäten erklären, warum die beiden obersten Punkte am unterschiedlichsten sind.
BruceET
Ich meine nicht, dass es einfach ist, Informationen über eines zu erhalten, wenn Sie das andere kennen, aber wenn Sie unabhängig sind, können Sie nur die marginale Verteilung beachten. Betrachten Sie zwei Standardnormalvariablen und Y.X.Y.ρ=0,9x=1y1- -1ρ=01- -1
Aber das ist für eine nahezu lineare Beziehung zwischen zwei Standardnormalen. Mittelwert und SD der Proben sind nicht so einfach.
BruceET
1
@ Dave, Sie haben Informationen über einen, wenn Sie den anderen kennen. Wenn zum Beispiel die Stichprobenvarianz wirklich groß ist, wissen Sie, dass der Stichprobenmittelwert nicht wirklich nahe bei 0,5 liegt (siehe zum Beispiel die Lücke in der oberen Mitte des ersten Diagramms)
Glen_b -Reinstate Monica
2

Es ist nicht so, dass der Mittelwert und die Varianz bei diskreten Verteilungen abhängig sind, sondern dass der Stichprobenmittelwert und die Varianz angesichts der Parameter der Verteilung abhängig sind . Der Mittelwert und die Varianz selbst sind feste Funktionen der Verteilungsparameter, und Konzepte wie "Unabhängigkeit" gelten nicht für sie. Folglich stellen Sie sich die falschen hypothetischen Fragen.

(x¯,s2)(1,2,,10)

Geben Sie hier die Bildbeschreibung ein

s2x¯

Natürlich kann ein Beispiel Glen's Vermutung in dem von Ihnen verlinkten Beitrag nicht beweisen, dass keine diskrete Verteilung mit unabhängigen Stichprobenmitteln und Varianzen existiert!

Jbowman
quelle
Das ist ein guter Haken in Bezug auf Statistik und Parameter. Ich habe eine ziemlich umfangreiche Bearbeitung vorgenommen.
Dave