Statistischer Test für zwei Verteilungen, bei denen nur eine Zusammenfassung mit fünf Zahlen bekannt ist

17

Ich habe zwei Verteilungen, bei denen nur die Zusammenfassung mit fünf Zahlen (Minimum, 1. Quartil, Median, 3. Quartil, Maximum) und die Stichprobengröße bekannt sind. Anders als hier stehen nicht alle Datenpunkte zur Verfügung.

Gibt es einen nicht-parametrischen statistischen Test, mit dem ich überprüfen kann, ob die zugrunde liegenden Verteilungen der beiden unterschiedlich sind?

Vielen Dank!

bonifaz
quelle

Antworten:

9

Unter der Nullhypothese, dass die Verteilungen gleich sind und beide Stichproben zufällig und unabhängig von der gemeinsamen Verteilung erhalten werden, können wir die Größen aller 5×5 (deterministischen) Tests ermitteln, die durch Vergleichen eines Buchstabenwerts mit einem anderen durchgeführt werden können. Einige dieser Tests scheinen eine angemessene Leistung zu haben, um Unterschiede in der Verteilung festzustellen.


Analyse

Die ursprüngliche Definition der 5 Buchstaben-Zusammenfassung jeder bestellten Charge von Zahlen x1x2xn ist die folgende [Tukey EDA 1977]:

  • Für jede Zahl in { ( 1 + 2 ) / 2 , ( 2 + 3 ) / 2 , , ( n - 1 + n ) / 2 } definieren Sie x m = ( x i + x i + 1 ) / 2.m=(ich+(ich+1))/2{(1+2)/2,(2+3)/2,,(n-1+n)/2}xm=(xich+xich+1)/2.

  • Sei .ich¯=n+1-ich

  • Sei und h = ( m + 1 ) / 2.m=(n+1)/2h=(m+1)/2.

  • Die Buchstaben-Zusammenfassung ist die Menge { X - = x 1 , H - = x h , M = x m , H + = x ˉ h , X + = x n } . Seine Elemente werden als minimales, unteres, mittleres, oberes bzw. maximales Scharnier bezeichnet.5{X=x1,H=xh,M=xm,H+=xh¯,X+=xn}.

Zum Beispiel in dem Datenstapel können wir diese berechnen n = 12 , m = 13 / 2 und h = 7 / 2 , woher(3,1,1,2,3,5,5,5,7,13,21)n=12m=13/2h=7/2

X=3,H=x7/2=(x3+x4)/2=(1+2)/2=3/2,M=x13/2=(x6+x7)/2=(5+5)/2=5,H+=x7/2¯=x19/2=(x9+x10)/2=(5+7)/2=6,X+=x12=21.

Die Scharniere befinden sich in der Nähe der Quartile (sind aber normalerweise nicht genau so). Wenn Quartile verwendet werden, ist zu beachten, dass sie im Allgemeinen mit zwei der Ordnungsstatistiken arithmetisch gewichtet werden und somit in einem der Intervalle denen i aus n und dem verwendeten Algorithmus bestimmt werden kann die Quartile zu berechnen. Wenn q in einem Intervall [ i , i + 1 ] liegt, schreibe ich im Allgemeinen lose x q , um auf einen solchen gewichteten Mittelwert von x i und zu verweisen[xich,xich+1]ichnq[ich,ich+1]xqxich .xich+1

Mit zwei Chargen von Daten und ( y j , j = 1 , ... , m ) , gibt es zwei getrennte fünf Buchstaben Zusammenfassungen. Wir können die Nullhypothese testen, dass beide Stichproben einer gemeinsamen Verteilung F sind, indem wir einen der x- Buchstaben x q mit einem der y- Buchstaben y r vergleichen . Zum Beispiel könnten wir das obere Scharnier von x vergleichen(xich,ich=1,,n)(yj,j=1,,m),Fxxqyyrxzum unteren Scharnier von um zu sehen, ob x signifikant kleiner als y ist . Dies führt zu einer bestimmten Frage: Wie berechnet man diese Chance,yxy

PrF(xq<yr).

Für den Bruch und r ist dies nicht möglich, ohne F zu kennen . Da jedoch die x qx q und y r y r , dann a fortioriqrFxqxqyryr,

PrF(xq<yr)PrF(xq<yr).

Wir können dadurch universelle (unabhängig von ) Obergrenzen für die gewünschten Wahrscheinlichkeiten erhalten, indem wir die Wahrscheinlichkeit für die rechte Hand berechnen, die die Statistiken der einzelnen Ordnungen vergleicht. Die allgemeine Frage vor uns istF

Wie groß ist die Wahrscheinlichkeit, dass der höchste von n Werten kleiner ist als der r - höchste von m Werten, die aus einer gemeinsamen Verteilung gezogen wurden?qthnrthm

Auch darauf gibt es keine allgemeingültige Antwort, es sei denn, wir schließen die Möglichkeit aus, dass die Wahrscheinlichkeit zu stark auf einzelne Werte konzentriert ist. Mit anderen Worten, wir müssen davon ausgehen, dass Verbindungen nicht möglich sind. Dies bedeutet, dass eine kontinuierliche Verteilung sein muss. Obwohl dies eine Annahme ist, ist sie schwach und nicht parametrisch.F


Lösung

Die Verteilung spielt bei der Berechnung keine Rolle, da wir beim erneuten Ausdrücken aller Werte mittels der Wahrscheinlichkeitstransformation F neue Chargen erhaltenFF

X(F)=F(x1)F(x2)F(xn)

und

Y(F)=F(y1)F(y2)F(ym).

Darüber hinaus ist diese Umformulierung monoton und nimmt zu: Sie bewahrt die Ordnung und damit das Ereignis Da F stetig ist, werden diese neuen Chargen aus einer gleichmäßigen [ 0 , 1 ] -Verteilung gezogen. Unter dieser Verteilung - und wenn wir das jetzt überflüssige " F " aus der Notation streichen - finden wir leicht, dass x q eine Beta ( q , n + 1 - q ) = Beta ( q , ˉ q ) -Verteilung hat:xq<yr.F[0,1]Fxq(q,n+1q)(q,q¯)

Pr(xqx)=n!(nq)!(q1)!0xtq1(1t)nqdt.

In ähnlicher Weise ist die Verteilung von Beta ( r , m + 1 - r ) . Durch Durchführen der Doppelintegration über den Bereich x q < y r können wir die gewünschte Wahrscheinlichkeit erhalten,yr(r,m+1r)xq<yr

Pr(xq<yr)=Γ(m+1)Γ(n+1)Γ(q+r)3F~2(q,q-n,q+r; q+1,m+q+1; 1)Γ(r)Γ(n-q+1)

Da alle Werte ganzzahlig sind, sind alle Γ- Werte nur Fakultäten: Γ ( k ) = ( k - 1 ) ! = ( k - 1 ) ( k - 2 ) ( 2 ) ( 1 ) für das Integral k 0. Die wenig bekannte Funktion 3 F 2 ist an,m,q,rΓΓ(k)=(k-1)!=(k-1)(k-2)(2)(1)k0.3F~2regulierte hypergeometrische Funktion . In diesem Fall kann es als eine ziemlich einfache alternierende Summe der Länge berechnet werden , die durch einige Fakultäten normalisiert wird:nq+1

Γ(q+1)Γ(m+q+1) 3F~2(q,qn,q+r; q+1,m+q+1; 1)=i=0nq(1)i(nqi)q(q+r)(q+r+i1)(q+i)(1+m+q)(2+m+q)(i+m+q)=1(nq1)q(q+r)(1+q)(1+m+q)+(nq2)q(q+r)(1+q+r)(2+q)(1+m+q)(2+m+q).

Dies hat die Berechnung der Wahrscheinlichkeit auf nichts Komplizierteres als Addition, Subtraktion, Multiplikation und Division reduziert. Der Rechenaufwand skaliert mit Durch die Ausnutzung der SymmetrieO((nq)2).

Pr(xq<yr)=1Pr(yr<xq)

Die neue Berechnung skaliert als sodass wir auf Wunsch die einfachere der beiden Summen auswählen können. Dies wird jedoch selten erforderlich sein, da 5- Buchstaben-Zusammenfassungen in der Regel nur für kleine Chargen verwendet werden, die selten n , m 300 überschreiten .O((mr)2),5n,m300.


Anwendung

Angenommen, die beiden Chargen haben die Größen und m = 12 . Die entsprechenden Ordnungsstatistiken für x und y sind 1 , 3 , 5 , 7 , 8 und 1 , 3 , 6 , 9 , 12 , jeweils. Hier ist eine Tabelle der Wahrscheinlichkeit, dass x q < y r ist, wobei q die Zeilen und r die Spalten indiziert:n=8m=12xy1,3,5,7,81,3,6,9,12,xq<yrqr

q\r 1       3       6       9       12
1   0.4      0.807  0.9762  0.9987  1.
3   0.0491  0.2962  0.7404  0.9601  0.9993
5   0.0036  0.0521  0.325   0.7492  0.9856
7   0.0001  0.0032  0.0542  0.3065  0.8526
8   0.      0.0004  0.0102  0.1022  0.6

Eine Simulation von 10.000 iid-Probenpaaren aus einer Standardnormalverteilung ergab Ergebnisse in der Nähe dieser.

Um einen einseitigen Test bei Größe zu konstruieren wie zum Beispiel α = 5 % , um zu bestimmen , ob der x Charge wesentlich geringer ist als der y batch, suchen Werte in dieser Tabelle der Nähe oder direkt unter α . Gute Entscheidungen sind bei ( q , r ) = ( 3 , 1 ) , wobei die Chance 0,0491 beträgt , bei ( 5 , 3 ) mit einer Chance von 0,0521 und bei ( 7 ,α,α=5%,xyα(q,r)=(3,1),0,0491,(5,3)0,0521 mit einer Chance von 0,0542. Welche zu verwenden ist, hängt von Ihren Gedanken über die alternative Hypothese ab. Zum Beispielvergleichtder ( 3 , 1 ) -Test das untere Scharnier von x mit dem kleinsten Wert von y und findet einen signifikanten Unterschied, wenn das untere Scharnier das kleinere ist. Dieser Test reagiert auf einen Extremwert von y ; Wenn Bedenken hinsichtlich der Abweichung von Daten bestehen, kann dies ein riskanter Test sein. Andererseits vergleicht der Test ( 7 , 6 ) das obere Gelenk von x mit dem Median von y(7,6)0,0542.(3,1)xyy(7,6)xy. Dieser ist sehr robust gegenüber Ausreißern im Batch und mäßig robust gegenüber Ausreißern in x . Es vergleicht jedoch Mittelwerte von x mit Mittelwerten von y . Obwohl dies wahrscheinlich ein guter Vergleich ist, werden keine Unterschiede in den Verteilungen festgestellt, die nur in einem der Leitwerke auftreten.yxxy

Die analytische Berechnung dieser kritischen Werte hilft bei der Auswahl eines Tests. Sobald ein (oder mehrere) Tests identifiziert sind, lässt sich ihre Fähigkeit zur Erkennung von Änderungen wahrscheinlich am besten durch Simulation bewerten. Die Leistung hängt stark davon ab, wie unterschiedlich die Verteilungen sind. Um ein Gefühl dafür zu bekommen, ob diese Tests überhaupt eine Aussagekraft haben, habe ich den -Test mit dem y j durchgeführt , das aus einer Normalverteilung ( 1 , 1 ) gezogen wurde : Das heißt, der Median wurde um eine Standardabweichung verschoben . In einer Simulation war der Test in 54,4 % der Fälle signifikant : Das ist eine beachtliche Leistung für so kleine Datensätze.(5,3)yj(1,1)54.4%

Man kann noch viel mehr sagen, aber all das ist Routine, wenn es darum geht, zweiseitige Tests durchzuführen, die Größe von Effekten zu bestimmen und so weiter. Der Hauptpunkt wurde demonstriert: Angesichts der Buchstaben-Zusammenfassungen (und Größen) von zwei Datenmengen ist es möglich, einigermaßen leistungsfähige nichtparametrische Tests zu erstellen, um Unterschiede in den zugrunde liegenden Populationen festzustellen,5 und in vielen Fällen können sogar mehrere vorliegen Testauswahl zur Auswahl. Die hier entwickelte Theorie hat eine breitere Anwendung auf den Vergleich zweier Populationen mittels einer entsprechend ausgewählten Ordnungsstatistik aus ihren Stichproben (nicht nur derjenigen, die sich den Buchstabenzusammenfassungen annähern).

Diese Ergebnisse haben andere nützliche Anwendungen. Ein Boxplot ist beispielsweise eine grafische Darstellung einer Buchstaben-Zusammenfassung. Zusammen mit der Kenntnis der Stichprobengröße, die in einem Boxplot angezeigt wird, stehen eine Reihe einfacher Tests zur Verfügung (basierend auf dem Vergleich von Teilen einer Box und eines Whiskers mit einem anderen), um die Signifikanz von visuell erkennbaren Unterschieden in diesen Plots zu bewerten.5

whuber
quelle
7

Ich bin mir ziemlich sicher, dass es in der Literatur noch keinen geben wird, aber wenn Sie einen nichtparametrischen Test anstreben, müsste dies unter der Annahme der Kontinuität der zugrunde liegenden Variablen erfolgen - Sie könnten sich so etwas wie einen ECDF ansehen -Statistik - Sagen wir eine Äquivalenz zu einer Kolmogorov-Smirnov-Statistik oder etwas Ähnliches zu einer Anderson-Darling-Statistik (obwohl die Verteilung der Statistik in diesem Fall natürlich sehr unterschiedlich sein wird).

Die Verteilung für kleine Stichproben hängt von den genauen Definitionen der in der Fünf-Zahlen-Zusammenfassung verwendeten Quantile ab.

Betrachten Sie beispielsweise die Standardquartile und Extremwerte in R (n = 10):

> summary(x)[-4]
    Min.  1st Qu.   Median  3rd Qu.     Max. 
-2.33500 -0.26450  0.07787  0.33740  0.94770 

im Vergleich zu denen, die durch den Befehl für die Fünf-Zahlen-Zusammenfassung generiert wurden:

> fivenum(x)
[1] -2.33458172 -0.34739104  0.07786866  0.38008143  0.94774213

Beachten Sie, dass sich das obere und das untere Quartil von den entsprechenden Scharnieren im fivenumBefehl unterscheiden.

Im Gegensatz dazu sind die beiden Ergebnisse bei n = 9 identisch (wenn sie alle bei Beobachtungen auftreten).

(R enthält neun verschiedene Definitionen für Quantile.)

Der Fall für alle drei Quartile, die bei Beobachtungen auftreten (wenn n = 4k + 1, glaube ich, möglicherweise unter mehreren Fällen unter einigen Definitionen von ihnen), könnte tatsächlich algebraisch machbar sein und sollte nichtparametrisch sein, aber der allgemeine Fall (über viele Definitionen hinweg) kann Dies ist nicht möglich und darf nicht unparametrisch sein (betrachten Sie den Fall, in dem Sie Beobachtungen mitteln, um Quantile in mindestens einer der Stichproben zu erzeugen ... in diesem Fall bleiben die Wahrscheinlichkeiten verschiedener Anordnungen von Stichprobenquantilen möglicherweise nicht länger davon unberührt die Verteilung der Daten).

Sobald eine feste Definition gewählt wurde, scheint die Simulation der richtige Weg zu sein.

Da es bei einer Teilmenge der möglichen Werte von nichtparametrisch ist , ist die Tatsache, dass es für andere Werte nicht mehr verteilungsfrei ist, möglicherweise kein so großes Problem. man könnte sagen, dass sie bei mittleren Stichprobengrößen nahezu verteilungsfrei sind, zumindest wenn n nicht zu klein ist.nn


Schauen wir uns einige Fälle an, die verteilungsfrei sein sollten, und betrachten einige kleine Stichprobengrößen. Angenommen, eine Statistik vom Typ KS wird direkt auf die Fünf-Nummern-Zusammenfassung selbst angewendet, und zwar für Stichprobengrößen, bei denen die Fünf-Nummern-Zusammenfassungswerte Einzelbestellungsstatistiken sind.

Beachten Sie, dass dies den KS-Test nicht wirklich genau "emuliert", da die Sprünge im Heck im Vergleich zum KS beispielsweise zu groß sind. Andererseits ist es nicht einfach zu behaupten, dass die Sprünge bei den Zusammenfassungswerten für alle Werte zwischen ihnen gelten sollten. Unterschiedliche Sätze von Gewichten / Sprüngen haben unterschiedliche Fehlereigenschaften vom Typ I und unterschiedliche Leistungseigenschaften, und ich bin nicht sicher, welche am besten zu wählen ist (eine geringfügige Abweichung von den gleichen Werten könnte jedoch zu einem feineren Satz von Signifikanzniveaus führen). Mein Zweck ist es dann einfach zu zeigen, dass der allgemeine Ansatz machbar sein kann, und keine spezifische Vorgehensweise zu empfehlen. Ein beliebiger Satz von Gewichten für jeden Wert in der Zusammenfassung gibt weiterhin einen nichtparametrischen Test, solange sie nicht mit Bezug auf die Daten genommen werden.

Sowieso geht hier:


Ermitteln der Nullverteilung / kritischen Werte durch Simulation

Bei n = 5 und 5 in den beiden Stichproben müssen wir nichts Besonderes tun - das ist ein direkter KS-Test.

Bei n = 9 und 9 können wir eine einheitliche Simulation durchführen:

 ks9.9 <- replicate(10000,ks.test(fivenum(runif(9)),fivenum(runif(9)))$statistic)
 plot(table(ks9.9)/10000,type="h"); abline(h=0,col=8)

Bildbeschreibung hier eingeben

  # Here's the empirical cdf:
 cumsum(table(ks9.9)/10000)
   0.2    0.4    0.6    0.8 
0.3730 0.9092 0.9966 1.0000 

n1=n2=9α=0,1Dcricht=0,6α=0,005Dcricht=0.8nα

n1=9,n2=13D=0,6

n1=n2=13D=0,6

nα0,2α0,001

-

Ein sehr schneller "von Inspektion" -Test

D0,6

(i) Wenn sich die gesamte Stichprobe auf einer Seite des Medians der anderen Gruppe befindet.

(ii) Wenn sich die Kästchen (der von den Quartilen abgedeckte Bereich) nicht überlappen.

Es gibt also eine nette, supereinfache, nichtparametrische Zurückweisungsregel für Sie - aber normalerweise wird sie kein "nettes" Signifikanzniveau haben, es sei denn, die Stichprobengrößen sind nicht zu weit von 9-13 entfernt.


α

nα

α0,111,411,9111

Im Vergleich zu diesen KS-ähnlichen Tests würde ich erwarten, dass so etwas wie ein Anderson-Liebling leistungsstärker ist, aber die Frage ist, wie man diesen Fall mit fünf Zahlen gewichtet. Ich kann mir vorstellen, dass das in Angriff genommen werden kann, aber ich bin nicht sicher, inwieweit es sich lohnt.


Leistung

n1=9,n2=13

Bildbeschreibung hier eingeben

Dies scheint eine plausible Leistungskurve zu sein. Es scheint also zumindest bei diesen kleinen Stichprobengrößen in Ordnung zu sein.


Was ist mit robust anstatt nichtparametrisch?

Wenn nichtparametrische Tests nicht so wichtig sind, aber robuste Tests in Ordnung sind, könnten wir uns stattdessen einen direkteren Vergleich der drei Quartilwerte in der Zusammenfassung ansehen, z. B. ein Intervall für den Median basierend auf dem IQR und der Stichprobengröße (Basierend auf einer gewissen nominellen Verteilung, um die herum Robustheit gewünscht wird, wie zum Beispiel die normale - dies ist die Begründung für zum Beispiel gekerbte Box-Plots). Dies sollte bei großen Probenmengen tendenziell besser funktionieren als der nichtparametrische Test, bei dem es an geeigneten Signifikanzgraden mangelt.

Glen_b - Setzen Sie Monica wieder ein
quelle
1
Sehr schön! Ich frage mich auf Anhieb, ob Sie angesichts der zusammenfassenden Statistik tatsächlich die maximal oder minimal mögliche D-Statistik für den KS-Test berechnen könnten. Beispielsweise können Sie die CDFs auf der Grundlage der Zusammenfassungsstatistik zeichnen. Anschließend werden für jede Beispiel-CDF P-Box- Fenster angezeigt. Basierend auf diesen beiden P-Box-Fenstern können Sie die maximal oder minimal mögliche D-Statistik berechnen und anschließend die Teststatistik in üblichen Tabellen nachschlagen.
Andy W
2

Ich sehe nicht ein, wie es einen solchen Test geben könnte, zumindest ohne einige Annahmen.

Sie können zwei verschiedene Verteilungen mit derselben 5-Nummern-Zusammenfassung haben:

Hier ist ein triviales Beispiel, in dem ich nur 2 Zahlen ändere, aber deutlich mehr Zahlen geändert werden könnten

set.seed(123)

#Create data
x <- rnorm(1000)

#Modify it without changing 5 number summary
x2 <- sort(x)
x2[100] <- x[100] - 1
x2[900] <- x[900] + 1

fivenum(x)
fivenum(x2)
Peter Flom - Wiedereinsetzung von Monica
quelle
Dieses Beispiel zeigt nur eine Einschränkung der Leistungsfähigkeit eines solchen Verfahrens, scheint aber ansonsten nicht viel Licht ins Dunkel zu bringen.
whuber
Ich denke, es bedeutet, dass die Macht eines solchen Tests ohne einige Annahmen unschätzbar wäre. Wie könnte ein solcher Test aussehen?
Peter Flom - Reinstate Monica
1
Leistungsberechnungen erfordern immer Annahmen, auch bei nichtparametrischen Tests. Versuchen Sie, eine Leistungskurve für einen Kolmogorov-Smirnov zu finden, ohne mehr Annahmen zu treffen, als Sie für die Durchführung des Tests selbst benötigen.
Glen_b
2
Es gibt eine begrenzte Anzahl von Tests, die berücksichtigt werden können: Sie vergleichen die Werte in einer Zusammenfassung mit denen in einer anderen. Eine davon wäre beispielsweise ein Vergleich des oberen Scharniers eines Datensatzes mit dem unteren Scharnier eines anderen. Bei ausreichend großen Stichproben würde dies einen signifikanten Unterschied zwischen einer Population und einer anderen anzeigen. Es hängt mit der gemeinsamen Wahrscheinlichkeit zusammen, dass X>Y.XY.
@whuber Ohne irgendein Maß für den Fehler oder die Genauigkeit der Messungen? Oder wird das durch Stichprobengröße geliefert? Mit den Quantilen und noch mehr mit dem Maximum und dem Minimum lässt sich auf diese Weise nur schwer arbeiten.
Peter Flom - Wiedereinsetzung von Monica