Kolmogorov-Smirnov-Test?

8

Ich untersuche Störungen, die durch den Schiffsverkehr zu einem kleinen Seevogel verursacht werden. Ich beobachtete fokale Tiere für eine festgelegte Zeitspanne und zeichnete auf, ob sie während der Beobachtung aus dem Wasser fliegen oder nicht. Dieser bestimmte Vogel fliegt nicht mit hoher Wahrscheinlichkeit, wenn er nicht gestört wird (etwa 10% der Zeit). Post hoc habe ich jeder Beobachtung die Entfernung zum nächsten Schiff hinzugefügt (Schiffe von Interesse hatten GPS-Ortungsgeräte, die alle 5 Sekunden einen Punkt aufzeichneten).

Ich habe die kumulative Verteilungsfunktion für ALLE Beobachtungen und für Beobachtungen aufgezeichnet, bei denen der Vogel als Funktion der Entfernung zum nächsten Schiff aus dem Wasser geflogen ist. Wie erwartet wurde die Mehrzahl der Beobachtungen, bei denen der Vogel flog, beobachtet, als sich das Schiff in der Nähe befand.

ecdf plot, fly, flog nicht, alle obs

Kann ich mit dem Kolmogorov-Smirnov-Test testen, ob es einen statistischen Unterschied in der Verteilung der Flugbeobachtungen und der Gesamtbeobachtungen gibt? Mein Gedanke ist, wenn diese beiden Verteilungen unterschiedlich sind, würde dies darauf hindeuten, dass die Schiffsentfernung einen Einfluss auf den Flug hat. Ich mache mir Sorgen, da diese Verteilungsfunktionen nicht unabhängig sind, da die Flugbeobachtungen eine Teilmenge der Gesamtbeobachtungen sind.

Gedanken?

Nachdem ich auf dieser Seite etwas weiter gelesen habe, denke ich, dass ich die Verteilung der Beobachtungen, bei denen der Flug stattgefunden hat (F), gegen die Verteilung der Beobachtungen testen kann, bei denen dies nicht der Fall war (NF), da diese unabhängig sind. Wenn diese Verteilungen gleich F = NF sind, können wir annehmen, dass die Verteilung von (F) und (TOT = alle Beobachtungen) gleich ist, da wir wissen, dass die Verteilung von (F) gleich sich selbst und (F) + ist (T) = (TOT). Recht?

UPDATE: 12.02.14

Nach den Vorschlägen von @Scortchi untersuchte ich die Beziehung zwischen Fluginzidenz und Entfernung zum nächsten Schiff in einem logistischen Regressionsrahmen. Es war eine leichte Beziehung vorhanden (negative Steigung), aber der p-Wert war nicht signifikant, was darauf hindeutet, dass die wahre Steigung Null sein könnte. Basierend auf den beschreibenden Statistiken (einschließlich der Ecdf-Diagramme) vermutete ich, dass die Wirkung von nahen Schiffen durch die vielen Beobachtungen übertönt wurde, als das Schiff das Verhalten nicht beeinflusste. Ich habe dann das segmentierte R-Paket verwendet ( http://cran.r-project.org/web/packages/segmented/segmented.pdf)) um zu versuchen, einen Haltepunkt im Modell zu finden. Das Programm stellte fest, dass das Brechen der Daten in 2,6 km Entfernung vom Schiff und das Anpassen von zwei separaten Koeffizienten besser war als das Einzelkoeffizientenmodell. Der Koeffizient für die Steigung der Annäherungen an nahe Schiffe war negativ und legt nahe, dass Schiffe die Flugreaktion bis etwa 2,6 km beeinflussen (p-Wert <0,001). Der Koeffizient für die zweite Steigung war leicht positiv, aber der p-Wert war bei einem Alpha-Wert von 0,05 nicht signifikant (p-Wert = 0,11). Zusammenfassend konnte die segmentierte Regressionslinie eine Schwellendifferenz erkennen, bei der die Flugwahrscheinlichkeit zunimmt. Die Schätzung für die Flugwahrscheinlichkeit, wenn das Schiff weiter als 2,6 km entfernt ist, beträgt 0,11. Passenderweise beobachtete ich 79 Vögel, als sich noch keine Schiffe in der Untersuchungsbucht befanden (>

Vielen Dank für alle Vorschläge. Ich hoffe, diese Frage zusammen mit den Vorschlägen und Antworten hilft anderen.

Marcellt
quelle
Warum nicht logistische Regression mit geflogen / nicht geflogen als Antwort und Entfernung zum nächsten Schiff als Prädiktor?
Scortchi - Monica wieder einsetzen
Ich habe das versucht. Der Achsenabschnitt ist signifikant, die Steigung jedoch nicht. Es gibt zu viel Rauschen (Flug) in den Daten in Entfernungen, die biologisch nicht relevant sind. Dies ist der natürliche Flug, der bei dieser Art auftritt. Ich versuche, die Entfernung zu bestimmen, in der das Schiff den Flug beeinflusst, damit ich Beobachtungen als "in Gegenwart" oder "in Abwesenheit" von Schiffen gruppieren kann. Ich denke, die maximale Entfernung oder der Punkt, an dem die D-Statistik berechnet wird, könnte mich diesem Ziel näher bringen.
Marcellt
2
Schlechte Idee - siehe hier . Die Verwendung der Antwortvariablen zur Entscheidung, wo eine kontinuierliche Variable gebrochen werden soll, ist besonders schlecht, da die Koeffizientenschätzungen verzerrt werden. Haben Sie die Krümmung in der Beziehung des Logits der Antwort zum Prädiktor überprüft?
Scortchi - Monica wieder einsetzen
1
An Ihrem Test (F vs NF) oder an der Bestimmung der Entfernung, in der die ECDFs am weitesten voneinander entfernt sind, ist nichts falsch. (a) Verwenden Ihrer Daten zum Definieren von Kontroll- und Behandlungsgruppen, dann ist das Testen / Modellieren derselben Daten für diese Gruppen ungültig; (b) Wenn Sie nicht wirklich glauben, dass es eine Entfernung gibt, ab der Vögel nicht mehr betroffen sind und innerhalb derer sie betroffen sind, ist dies eine schlechte Methode, um sie auch für zukünftige Daten zu modellieren. (c) Angesichts der offensichtlichen Unterschiede zwischen den ECDFs sollte eine entsprechend spezifizierte logistische Regression einen signifikanten Effekt der Schiffsentfernung auf die Flugwahrscheinlichkeit zeigen.
Scortchi - Monica wieder einsetzen
1
(i) Sie möchten wirklich nicht vergleichen (A gegen A + B), weil Sie die Unabhängigkeit der beiden verlieren und jeder Test darauf abgestimmt werden muss (was in vielen Fällen schwierig sein wird). Teste A gegen B und behalte die Unabhängigkeit. Keiner der Standardtests funktioniert anders. (ii) Sie möchten vermeiden, die Prädiktoren zu diskretisieren, wenn dies vermieden werden kann.
Glen_b -State Monica

Antworten:

1

Interessantes Problem. Ich habe zwei Gedanken, einen allgemeinen und einen darüber, wie Sie Ihre Daten charakterisieren können ...

Erstens stimme ich in Bezug auf den Vergleich von Verteilungen @Glen_b und @Scortchi zu, dass Sie Fly vs All nicht wie in Ihrem Diagramm gezeigt vergleichen möchten (aber eine gute Idee, das Diagramm der D-Statistik zu überlagern). Da Sie fest davon überzeugt sind, wo die Verteilungen wahrscheinlich unterschiedlich sind und nicht nur, dass sie unterschiedlich sind, sollten Sie Quantile der beiden Verteilungen vergleichen. Es gibt einen schönen Blog-Beitrag zu diesem Thema, der R-Code verwendet, um die Testmethode zu entwickeln. Und es gibt ein R-Paket, WRS , das quantilbasierte Testmethoden implementiert.

Zweitens würde ich in Betracht ziehen, die Verwendung eines formalen Vergleichstests ganz zu streichen und stattdessen Weight of Evidence (WOE) zu verwenden. Dieser Ansatz wird häufig in Branchen verwendet, die Entscheidungsrahmen benötigen, die sich mit unterschiedlichen Risikograden für verschiedene Prädiktoren befassen. Beispiele hierfür sind das Underwriting von Versicherungen, die Bonitätsprüfung und klinische Studien.

In Ihrer Umgebung besteht ein grundsätzliches "Flugrisiko" (Sie sagten 10%), aber die Flugchancen scheinen bei Vorhandensein von Schiffen in bestimmten Entfernungen stark zuzunehmen. Mit dem WOE-Ansatz können Sie die Änderung der Flugchancen als Funktion der Schiffsentfernung vermitteln, die für Laien leicht verständlich ist (zumindest einfacher als das Verständnis der mit Teststatistiken verbundenen p-Werte). Beachten Sie, dass dies eng mit @ Scortchis Vorschlag zur Verwendung der logistischen Regression zusammenhängt, aber mit WOE versuchen Sie nicht, ein Regressionsmodell anzupassen.

Auf der Website von Statistica finden Sie eine schöne Dokumentation zur Anwendung der Methode. Die beste Einführung, die ich gefunden habe, ist jedoch in einem Buch zu Kreditbewertung, Antwortmodellierung und Versicherungsbewertung: Ein praktischer Leitfaden zur Prognose des Verbraucherverhaltens . Wenn Sie nach dem Begriff "WOE" suchen, finden Sie mehrere Abschnitte, in denen die Idee erörtert wird. In Abschnitt 5.1 wird ein vollständiges Beispiel für die Berechnung des WOE (ziemlich einfach) und die Auswertung der Ergebnisse für die Entscheidungsfindung beschrieben. Beachten Sie schließlich, dass es zu diesem Thema einen Stackoverflow-Beitrag gibt , der nicht sehr entwickelt ist, aber einen Link zu PDF enthält, der ein anderes Beispiel im Zusammenhang mit der SAS-Codierung durchläuft.

Josh Hemann
quelle