Ich habe 2 exponentiell verteilte Datensätze und möchte sichergehen, dass sie aus unterschiedlichen Verteilungen stammen. Leider zwingt mich ein notwendiger Fehler bei der Erkennung der Daten, alle Daten unter einem bestimmten Schwellenwert zu verwerfen. In jedem Satz habe ich ungefähr 3000 Datenpunkte und das Zeichnen der Daten lässt mich denken, dass der Lambda-Wert unterschiedlich ist. Die Anpassung ergibt auch unterschiedliche Werte für Lambda.
Wie kann ich sicher sein, dass beide Datensätze aus einer unterschiedlichen Verteilung stammen?
Hier ein Diagramm, wie die Mengen aussehen (Beachten Sie, dass alle Werte unter Lebensdauer = 3 Sekunden verworfen werden müssen):
UPDATE: Die obigen Verteilungen werden in beiden Fällen über N normalisiert, um sie in einem Diagramm besser zu vergleichen, da die Gesamtzahl der Datenpunkte N unterschiedlich ist.
UPDATE2: Nach dem Abschneiden habe ich ungefähr 150 Lebensdauerwerte für den roten Datensatz und 350 für den blauen Datensatz. Es stellt sich heraus, dass 3000 übertrieben war (es tut mir leid).
UPDATE3: Danke, dass Sie sich mit mir befasst haben. Hier sind die Rohdaten:
http://pastebin.com/raw.php?i=UaGZS0im
http://pastebin.com/raw.php?i=enjyW1uC
Bisher habe ich beiden Datensätzen eine Exponentialfunktion angepasst und die Steigungen verglichen. Da eine Normalisierung die Steigung der Daten nicht ändern sollte, sollten unterschiedliche Steigungen unterschiedliche zugrunde liegende Exponentialverteilungen implizieren (meine Erfahrung mit statistischen Analysen ist sehr begrenzt).
Die Werte unter dem Schwellenwert werden verworfen, da die Messung viele Ereignisse in diesem Bereich zu oft erkennt.
UPDATE4: Ich habe gerade festgestellt, dass mein Problem viel komplizierter ist als ich dachte. Ich habe tatsächlich zensierte Daten (ich kenne den Beginn einiger Ereignisse nicht) und rechts zensierte Daten (ich kenne das Ende einiger Ereignisse nicht) UND ich muss alle Lebensdauern unter 3 Sekunden verwerfen (Kürzung). Gibt es eine Möglichkeit, all das in eine Analyse einzubeziehen? Bisher habe ich Hilfe beim Umgang mit zensierten Daten gefunden (Überlebensanalyse), aber was soll ich mit der Kürzung tun?
Antworten:
Exponentiell verteilte Lebensdauern sind ein besonders einfacher Fall für die Überlebensanalyse . Ihre Analyse ist oft das erste Beispiel, mit dem die Schüler beginnen können, bevor sie zu komplizierteren Situationen übergehen. Darüber hinaus eignet sich die Überlebensanalyse natürlich für zensierte Daten. Kurz gesagt, ich schlage vor, Sie verwenden eine Überlebensanalyse mit einem Gruppierungsindikator für die beiden Verteilungen als Behandlungseffekt. Sie können ein parametrisches Modell verwenden (z. B. das Weibull-Modell, da das Exponential ein Sonderfall des Weibull ist ), oder Sie können nichtparametrische Methoden wie den Log-Rank-Test verwenden , wenn Sie dies bevorzugen.
quelle
Da Sie eine große Stichprobengröße haben, können wir uns zum Testen auf den zentralen Grenzwertsatz berufen, der Folgendes besagt:
Mit anderen Worten, Ihre Stichprobenmittelwerte für jede der beiden Gruppen sind ungefähr normal verteilt. Da Sie den wahren Wert von nicht kennen , können Sie einen t-Test für eine Differenz der Mittelwerte durchführen.σ2
quelle