Testen Sie, ob 2 exponentiell verteilte Datensätze unterschiedlich sind

8

Ich habe 2 exponentiell verteilte Datensätze und möchte sichergehen, dass sie aus unterschiedlichen Verteilungen stammen. Leider zwingt mich ein notwendiger Fehler bei der Erkennung der Daten, alle Daten unter einem bestimmten Schwellenwert zu verwerfen. In jedem Satz habe ich ungefähr 3000 Datenpunkte und das Zeichnen der Daten lässt mich denken, dass der Lambda-Wert unterschiedlich ist. Die Anpassung ergibt auch unterschiedliche Werte für Lambda.

Wie kann ich sicher sein, dass beide Datensätze aus einer unterschiedlichen Verteilung stammen?

Hier ein Diagramm, wie die Mengen aussehen (Beachten Sie, dass alle Werte unter Lebensdauer = 3 Sekunden verworfen werden müssen):

UPDATE: Die obigen Verteilungen werden in beiden Fällen über N normalisiert, um sie in einem Diagramm besser zu vergleichen, da die Gesamtzahl der Datenpunkte N unterschiedlich ist.

UPDATE2: Nach dem Abschneiden habe ich ungefähr 150 Lebensdauerwerte für den roten Datensatz und 350 für den blauen Datensatz. Es stellt sich heraus, dass 3000 übertrieben war (es tut mir leid).

UPDATE3: Danke, dass Sie sich mit mir befasst haben. Hier sind die Rohdaten:

http://pastebin.com/raw.php?i=UaGZS0im

http://pastebin.com/raw.php?i=enjyW1uC

Bisher habe ich beiden Datensätzen eine Exponentialfunktion angepasst und die Steigungen verglichen. Da eine Normalisierung die Steigung der Daten nicht ändern sollte, sollten unterschiedliche Steigungen unterschiedliche zugrunde liegende Exponentialverteilungen implizieren (meine Erfahrung mit statistischen Analysen ist sehr begrenzt).

Die Werte unter dem Schwellenwert werden verworfen, da die Messung viele Ereignisse in diesem Bereich zu oft erkennt.

UPDATE4: Ich habe gerade festgestellt, dass mein Problem viel komplizierter ist als ich dachte. Ich habe tatsächlich zensierte Daten (ich kenne den Beginn einiger Ereignisse nicht) und rechts zensierte Daten (ich kenne das Ende einiger Ereignisse nicht) UND ich muss alle Lebensdauern unter 3 Sekunden verwerfen (Kürzung). Gibt es eine Möglichkeit, all das in eine Analyse einzubeziehen? Bisher habe ich Hilfe beim Umgang mit zensierten Daten gefunden (Überlebensanalyse), aber was soll ich mit der Kürzung tun?

MaxJ
quelle
Wie werden die Diagramme geschätzt, da sie Dichten zu zeigen scheinen?
Yves
Diese klingen wie zensierte Daten. Sie verlieren Informationen und verzerren möglicherweise die Ergebnisse, indem Sie diese unter dem Schwellenwert verwerfen. Stattdessen müssen Sie den Schwellenwert angeben (3 Sekunden, wie ich sehe) und die Anzahl der verworfenen Werte in jeder Gruppe angeben. Sie sollten auch alle quantifizierten Daten erläutern, die unterhalb des Schwellenwerts angezeigt werden (z. B. den braunen Punkt unten links). Die Kennzeichnung der vertikalen Achse als "Dichte" ist rätselhaft: Sicherlich sind Ihre Originaldaten nur Lebensdauern, und diese Darstellung gibt Zählungen innerhalb enger Lebensdauerklassen an?
whuber
Wenn Sie die beiden bedingten Verteilungen (über dem Schwellenwert) vergleichen möchten, können Sie einen F-Test zum Vergleich der Mittelwerte verwenden, wie von @Glen_b in stats.stackexchange.com/a/76695/10479
Yves
Bitte: Entfernen Sie die Normalisierung, damit wir die tatsächlichen Daten sehen können (die Normalisierung zerstört wichtige Informationen) und teilen Sie uns mit, wie viele Werte Sie normalerweise in den Daten wegwerfen.
whuber
Ich habe die Rohdaten zur Frage hinzugefügt. Im ersten Datensatz muss ich 50% im zweiten ca. 30% verwerfen.
MaxJ

Antworten:

5

Exponentiell verteilte Lebensdauern sind ein besonders einfacher Fall für die Überlebensanalyse . Ihre Analyse ist oft das erste Beispiel, mit dem die Schüler beginnen können, bevor sie zu komplizierteren Situationen übergehen. Darüber hinaus eignet sich die Überlebensanalyse natürlich für zensierte Daten. Kurz gesagt, ich schlage vor, Sie verwenden eine Überlebensanalyse mit einem Gruppierungsindikator für die beiden Verteilungen als Behandlungseffekt. Sie können ein parametrisches Modell verwenden (z. B. das Weibull-Modell, da das Exponential ein Sonderfall des Weibull ist ), oder Sie können nichtparametrische Methoden wie den Log-Rank-Test verwenden , wenn Sie dies bevorzugen.

gung - Monica wieder einsetzen
quelle
Gilt dies auch für abgeschnittene Daten? Ich denke mein Problem ist ein bisschen anders als Zensur oder?
MaxJ
@ user3683367, das Abschneiden unterscheidet sich vom Zensieren. Diese würden auf Unterschiede in den Verteilungen oberhalb der Nachweisgrenze testen.
Gung - Reinstate Monica
Ich habe die Kürzung beseitigt (neues Exp. Setup) und nur links und rechts zensierte Daten in der statistischen MATLABS-Toolbox verwendet. Ich habe die Weibull-Funktion mit links und rechts zensierten Daten verwendet. Die angepassten Mittel sind unterschiedlich und ihre Fehlergrenzen überlappen sich nicht. Wie kann ich eine Wahrscheinlichkeit berechnen, dass meine Verteilungen tatsächlich gleich sind?
MaxJ
10
2

H0:λ1=λ2λiλ

Da Sie eine große Stichprobengröße haben, können wir uns zum Testen auf den zentralen Grenzwertsatz berufen, der Folgendes besagt:

X1,X2,...XnE[Xi]=μ and Var[Xi]=σ2<nn(X¯μ)N(0,σ2)

Mit anderen Worten, Ihre Stichprobenmittelwerte für jede der beiden Gruppen sind ungefähr normal verteilt. Da Sie den wahren Wert von nicht kennen , können Sie einen t-Test für eine Differenz der Mittelwerte durchführen.σ2

TrynnaDoStat
quelle
1
n=3000nψ(t)=t2/(2n)+it3/(3n2)+O(t4)2nn=3000
Ich habe meine Frage bearbeitet. Kann ich die CLT wirklich für linkszensierte Daten mit N = 100-300 anwenden?
MaxJ
Korrigieren Sie mich, wenn ich falsch liege, aber ich glaube, Whubers Argument ist, dass wenn die Exponentialverteilung abgeschnitten ist, es keine reine Exponentialverteilung mehr ist. Ein Kern meiner Argumentation ist, dass der Mittelwert der Exponentialverteilung sie eindeutig identifiziert. Wenn diese neue abgeschnittene Verteilung nicht mehr eindeutig durch ihren Mittelwert identifiziert wird, kann mein Argument fehlschlagen. Unabhängig davon, ob die Daten abgeschnitten sind oder nicht, können Sie dennoch einen Mittelwert-T-Test durchführen. Wenn die Mittelwerte unterschiedlich sind, sind die Verteilungen unterschiedlich.
TrynnaDoStat
μσ2
2
Mein Punkt ist nicht, dass das CLT nicht anwendbar ist: Um es anzuwenden, müssen Sie überprüfen, ob die asymptotische Näherung gut ist. Die CLT sagt absolut nichts über die Verteilung des Mittelwerts einer bestimmten endlichen Anzahl von iid-Variablen mit endlicher Varianz aus. Und bitte verwechseln Sie Kürzung nicht mit Zensur: Das durch Zensur verursachte Problem besteht darin, dass einige der Daten keine geraden Zahlen sind (es handelt sich um Intervalle). Daher kann das CLT in dieser Situation erst recht nicht (direkt) angewendet werden.
whuber