Box-Plot-Kerben gegen Tukey-Kramer-Intervall

10

Das „notch“ Hilfedokument ( oder Originaltext ) von boxplot in ‚R‘ gibt die folgenden:

Wenn sich die Kerben zweier Diagramme nicht überschneiden, ist dies ein „starker Beweis“ dafür, dass sich die beiden Mediane unterscheiden (Chambers et al., 1983, S. 62). Die verwendeten Berechnungen finden Sie in boxplot.stats.

und die ' boxplot.stats ' gibt Folgendes an:

Die Kerben (falls angefordert) erstrecken sich auf +/- 1,58 IQR / sqrt (n). Dies scheint auf den gleichen Berechnungen zu beruhen wie die Formel mit 1,57 in Chambers et al. (1983, S. 62), angegeben in McGill et al. (1978, S. 16). Sie basieren auf der asymptotischen Normalität des Medians und ungefähr gleichen Stichprobengrößen für die beiden verglichenen Mediane und sollen gegenüber den zugrunde liegenden Verteilungen der Stichproben eher unempfindlich sein. Die Idee scheint zu sein, ein Konfidenzintervall von ungefähr 95% für die Differenz zwischen zwei Medianen anzugeben.

Jetzt bin ich besser mit der Verwendung der JMP-Version des Tukey-Kramer-Tests vertraut, um die Mittelwerte von Spalten zu vergleichen. Die Dokumentation für JMP enthält Folgendes :

Zeigt einen Test an, der für alle Unterschiede zwischen den Mitteln bemessen ist. Dies ist der Tukey- oder Tukey-Kramer-HSD-Test (ehrlich signifikanter Unterschied). (Tukey 1953, Kramer 1956). Dieser Test ist ein exakter Alpha-Level-Test, wenn die Stichprobengrößen gleich sind, und konservativ, wenn die Stichprobengrößen unterschiedlich sind (Hayter 1984).

Frage: Wie ist die Art der Verbindung zwischen den beiden Ansätzen? Gibt es eine Möglichkeit, eins in das andere zu verwandeln?

Es sieht so aus, als würde man nach einem ungefähren 95% CI für den Median suchen und feststellen, ob es eine Überlappung gibt; und der andere ist ein "exakter Alpha-Test" (meine Proben haben die gleiche Größe), um festzustellen, ob die Mediane von zwei Probensätzen in einem vernünftigen Bereich voneinander liegen.

Ich verweise auf Pakete, aber ich interessiere mich für die Mathematik hinter der Logik.

EngrStudent
quelle

Antworten:

11

Was das gekerbte Boxplot betrifft, enthält die in Ihrer Frage erwähnte Referenz von McGill et al. [1] ziemlich vollständige Details (nicht alles, was ich hier sage, wird dort explizit erwähnt, aber es ist dennoch ausreichend detailliert, um es herauszufinden).

Das Intervall ist robust, aber auf Gauß basiert

MR

M±1.7×1.25R/(1.35N)

wo:

  • 1.35σσR/1.35σ

  • 1.2514nf02f0f012πσ0.3989σ12Nf0=π/2σ/N1.253σ/N

    N

    1.25R/(1.35N)

  • Es bleibt also nur noch der Faktor 1,7 zu ​​diskutieren.

    Beachten Sie, dass wir beim Vergleich einer Stichprobe mit einem festen Wert (z. B. einem hypothetischen Median) 1,96 für einen 5% -Test verwenden würden. Wenn wir also zwei sehr unterschiedliche Standardfehler hätten (einen relativ großen, einen sehr kleinen), wäre dies ungefähr der zu verwendende Faktor (denn wenn die Null wahr wäre, wäre der Unterschied fast ausschließlich auf die Variation des einen mit dem größeren zurückzuführen Standardfehler, und der kleine könnte - ungefähr - als effektiv behoben behandelt werden).

    1.96/21.386

    rr:11.96/1+1/r

Wenn Sie alle (1,35,1,25 und 1,7) zusammenfügen, erhalten Sie ungefähr 1,57. Einige Quellen erhalten 1,58, indem sie 1,35 oder 1,25 (oder beides) genauer berechnen, aber als Kompromiss zwischen 1,386 und 1,96 ist 1,7 nicht einmal auf zwei signifikante Zahlen genau (es ist nur ein Kompromisswert für das Baseballstadion), daher ist die zusätzliche Präzision sinnlos (sie hätten das Ganze genauso gut auf 1,6 runden und damit fertig sein können).

Beachten Sie, dass hier keine Anpassung für mehrere Vergleiche vorgenommen werden kann.


Es gibt einige deutliche Analogien in den Konfidenzgrenzen für einen Unterschied in der Tukey-Kramer-HSD :

y¯iy¯j±qα;k;Nk2σ^ε1ni+1nj

Aber beachte das

  • c.1ni+1njk.1nik.1nj1.961.96/2

  • Es basiert auf Mitteln, nicht auf Medianen (also keine 1,35).

  • q2

Während einige der Ideen hinter der Form von Komponenten etwas analog sind, unterscheiden sie sich tatsächlich in ihrer Arbeitsweise.

[1] McGill, R., Tukey, JW und Larsen, WA (1978) Variationen von Boxplots. The American Statistician 32, 12–16.

Glen_b - Monica neu starten
quelle