Was sind die statistischen Standardtests, um festzustellen, ob die Daten Exponential- oder Normalverteilungen folgen?

12

distributions hypothesis-testing normal-distribution smo
quelle

2

Der beste Test hängt wahrscheinlich davon ab, warum genau Sie auf Normalität / Exponential testen (daher wäre ein gewisser Hintergrund hilfreich). Sie können jedoch jederzeit den Kolmogorov Smirnov-Test verwenden, um zu testen, ob ein bestimmter Datensatz zu einer vorgegebenen Verteilung passt ( en.wikipedia) .org / wiki / Kolmogorov% E2% 80% 93Smirnov_test ). Es gibt viele Methoden, die speziell für die Normalverteilung verwendet werden: en.wikipedia.org/wiki/Normality_test

Makro

Die Variablen, mit denen ich es zu tun habe, folgen wahrscheinlich normalen oder exponentiellen Verteilungen. Außerdem habe ich einen Faktor, den ich nicht mag. Es gibt jedoch einige Variabilitäten für meine Daten. Daher möchte ich die Variablen normalisieren, um den Effekt dieses Störfaktors zu unterdrücken. Daher dachte ich, es ist besser, jede Variable basierend auf ihrer zugrunde liegenden Verteilung zu normalisieren. Deshalb brauche ich einen Test, um mich zwischen diesen beiden Distributionen zu entscheiden.

Smo

1

Was bedeutet Normalisieren in diesem Satz: Ich dachte, es ist besser, jede Variable basierend auf ihrer zugrunde liegenden Verteilung zu normalisieren ?

Makro

2

QQ-Diagramme sind zwar kein Test, eignen sich jedoch hervorragend, um schnell und intuitiv zu überprüfen, ob Ihre Daten mit einer Verteilung übereinstimmen.

naught101

13

Anscheinend versuchen Sie zu entscheiden, ob Sie Ihre Daten mit der Normal- oder der Exponentialverteilung modellieren möchten. Dies erscheint mir etwas seltsam, da diese Verteilungen sehr unterschiedlich sind.

Die Normalverteilung ist symmetrisch, während die Exponentialverteilung ohne negative Werte stark nach rechts geneigt ist. Typischerweise enthält eine Stichprobe aus der Exponentialverteilung viele Beobachtungen, die relativ nahe bei und einige Beobachtungen, die weit rechts von abweichen . Dieser Unterschied ist oft grafisch leicht zu erkennen. $0$ $0$

Hier ist ein Beispiel, in dem ich Beobachtungen aus einer Normalverteilung mit Mittelwert und Varianz und einer Exponentialverteilung mit Mittelwert und Varianz simuliert habe : $n=100$ $2$ $4$ $2$ $4$

Normal vs Exponential: simulierte Daten

Die Symmetrie der Normalverteilung und die Schiefe des Exponentials können unter Verwendung von Histogrammen, Boxplots und Streudiagrammen gesehen werden, wie in der obigen Abbildung dargestellt.

Ein weiteres sehr nützliches Werkzeug ist ein QQ-Plot . Im folgenden Beispiel sollten die Punkte ungefähr der Linie folgen, wenn die Probe aus einer Normalverteilung stammt. Wie Sie sehen können, ist dies bei den normalen Daten der Fall, nicht jedoch bei den Exponentialdaten.

QQ-Plots für simulierte Daten

$+1$

T_{E, N} = \frac{\bar{x} - x_{(1)}}{s}

$T_{E,N}=\frac{\bar{x}-x_{(1)}}{s}$

\bar{x}

$\bar{x}$

x_{(1)}

$x_{(1)}$

s

$s$

T_{E, N}

$T_{E,N}$

Dieser Test ist eigentlich eine einseitige Version von Grubbs 'Test für Ausreißer . Sie finden dies in den meisten Statistiksoftware implementiert (stellen Sie jedoch sicher, dass Sie die richtige Version verwenden - für den Ausreißertest werden mehrere alternative Teststatistiken verwendet!).

$T_{E,N}$

MånsT
quelle

Das OP fragte, ob Sie auf Normalität testen würden, welchen Test Sie in einer separaten Situation wählen würden, wenn Sie auf Exponential testen würden, welchen Test Sie verwenden würden. Ich habe nicht die Aussage gelesen, dass er vorschlug, beide Tests mit demselben Datensatz durchzuführen.

Michael R. Chernick

Ich habe es so interpretiert, da das OP in einem nachfolgenden Kommentar zu der Frage schrieb: "Die Variablen, mit denen ich es zu tun habe, folgen wahrscheinlich normalen oder exponentiellen Verteilungen. [...] Deshalb brauche ich einen Test dazu zwischen diesen beiden Verteilungen entscheiden. "

MånsT

Das habe ich nicht bemerkt. In diesem Fall ist Ihre Antwort sehr angemessen. Ich antwortete, als würde er nacheinander testen.

Michael R. Chernick

@ Michael: Ich habe es so interpretiert, als ich auch die ursprüngliche Frage gelesen habe, aber ich habe beschlossen, meine Antwort zu schreiben, nachdem ich den Kommentar gelesen habe. Ansonsten denke ich nicht, dass es viel zu Ihrer (+1) Antwort hinzuzufügen gibt (abgesehen von den kleinen Bemerkungen, die ich dort in einem Kommentar gemacht habe).

MånsT

5

$B_n$ $\overline{Y}$ $\overline{\log Y}$ $Y_i$

B_{n} = b_{n} \times {\log \bar{Y} - \bar{\log Y}} b_{n} = 2 n \times {1 + (n + 1) / (6 n)}^{- 1}

$B_n = b_n \times \left\{\log \bar{Y} - \overline{\log Y} \right\} \qquad b_n = 2n \times \left\{1+ (n+1)/(6n) \right\}^{-1}$

B_{n} \sim χ^{2} (n - 1)

$B_n \sim \chi^2(n-1)$

Siehe KC Kapur und LR Lamberson Zuverlässigkeit in der Konstruktion . Wiley 1977.

Yves
quelle

2

Ich bin auf einige neuere und umfangreichere Ressourcen zum Testen auf Exponentialität gestoßen. 1) Ein Artikel: A Henze, N. und Meintanis, SG (2005): 'Neueste und klassische Tests für Exponentialität: eine teilweise Überprüfung mit Vergleichen'. Metrika, vol. 61, S. 29–45. 2) Ein CRAN R-Paket mit dem Namen "exptest", das die Tests des genannten Artikels implementiert.

Yves

Die Verteilung von B_n ist nicht sehr klar. Ist es ein Chi-Quadrat mit n-1 df oder ein Chi-Quadrat mit n-1 df multipliziert mit n-1?

Dovini Jayasinghe

Funktioniert wie geschrieben. Sie können dies mit einigen Zeilen R-Code überprüfen.

Yves

Vielen Dank. Es sollte also die Multiplikation sein, wie ich sehen konnte. In dem Sinne sollten die Freiheitsgrade n-1 sein?

Dovini Jayasinghe

Entschuldigung, ich habe den Punkt in Ihrer Frage zur Notation verpasst. Also die Statistik

B_{n}

$B_n$ folgt ungefähr der Chi-Quadrat-Verteilung mit

n - 1

$n-1$ Freiheitsgrad.

Yves

4

Für die Normalität gelten Anderson-Darling und Shapiro-Wilk als die besten. Für den exponentiellen Lillerfors-Test wurde speziell dafür entwickelt.

Michael R. Chernick
quelle

5

Diese Antwort könnte mit ein wenig Detail darüber verbessert werden, warum jeder Test als gut / besser als andere angesehen wird.

naught101

Diese Tests sind in dem Sinne besser, dass sie am stärksten von Abweichungen von normal (Anderson-Darling) und exponentiell (Lillefors) abweichen. Ich denke nicht, dass es aufgrund der Form des Tests einfach ist, eine ituitive Erklärung zu liefern.

Michael R. Chernick

3

@Michael: Der Anderson-Darling-Test auf Normalität (wie der Shapiro-Wilk-Dito) hat eine respektable Kraft gegen eine Vielzahl von Alternativen, ist aber sicherlich nicht der mächtigste (weder im Allgemeinen noch im Durchschnitt). Die Wahl des Tests sollte von der jeweiligen Alternative abhängen. Ich habe noch nie vom Lillerfors-Test gehört - meinten Sie den Lilliefors-Test (der eigentlich ein Test für Normalität und kein Test für Exponentialität ist)?

MånsT

Natürlich bezog ich mich auf den Lillefors-Test für Exponentialität, da er derjenige war, den ich für Exponentialverteilungsannahmen vorschlug. Ich habe Shapiro-Wilk und Anderson-Darling aufgelistet, weil sie meines Wissens zu den stärksten unter den Normalitätstests gehören. Was sind die leistungsstärkeren Tests, auf die Sie sich beziehen?

Michael R. Chernick

1

Es hängt davon ab, welche Art von Alternative Sie haben. Beispielsweise ist bei Stichprobenalternativen die Stichprobenversetzung häufig stärker als bei SW und AD. Letztere sind Omnibus-Tests, die im Durchschnitt ziemlich gut sind. Wenn Sie jedoch wissen, um welche Art von Nicht-Normalität Sie sich Sorgen machen, ist es besser, einen gerichteten Test zu verwenden (z. B. den Stichproben-Skewness-Test, der auf Skew-Alternativen abzielt). .

MånsT

4

Haben Sie grafische Methoden in Betracht gezogen, um zu sehen, wie sich die Daten verhalten?

Bei Wahrscheinlichkeitsgraphentechniken werden normalerweise die Daten eingestuft, die inverse CDF angewendet und die Ergebnisse dann auf der kartesischen Ebene aufgezeichnet. Auf diese Weise können Sie feststellen, ob mehrere Werte von der hypothetischen Verteilung abweichen und möglicherweise den Grund für die Abweichung erklären.

Schenectady
quelle

Was sind die statistischen Standardtests, um festzustellen, ob die Daten Exponential- oder Normalverteilungen folgen?

Antworten: