Warum ist der Variationskoeffizient bei Verwendung von Daten mit positiven und negativen Werten nicht gültig?

10

Ich kann anscheinend keine endgültige Antwort auf meine Frage finden.

Meine Daten bestehen aus mehreren Darstellungen mit gemessenen Mittelwerten zwischen 0,27 und 0,57. In meinem Fall sind alle Datenwerte positiv, aber die Messung selbst basiert auf einem Verhältnis von Reflexionswerten, das von -1 bis +1 reichen kann. Die Diagramme stellen Werte des NDVI dar , einem aus der Ferne abgeleiteten Indikator für die "Produktivität" der Vegetation.

Meine Absicht war es, die Variabilität der Werte in jedem Diagramm zu vergleichen, aber da jedes Diagramm einen anderen Mittelwert hat, habe ich mich für die Verwendung des CV entschieden, um die relative Streuung der NDVI-Werte pro Diagramm zu messen.

Soweit ich weiß, ist es nicht koscher, den Lebenslauf dieser Diagramme zu erstellen, da jedes Diagramm sowohl positive als auch negative Werte haben kann. Warum ist es in solchen Fällen nicht angebracht, den Lebenslauf zu verwenden? Was wären einige praktikable Alternativen (dh ein ähnlicher Test der relativen Streuung, Datentransformationen usw.)?

Prophet60091
quelle
1
Was ist der Zweck des Vergleichs der Variabilität? Warum vergleichen Sie nicht einfach Kennzahlen der tatsächlichen Variabilität wie SD, MAD, Reichweite oder was auch immer anstelle einer relativen Kennzahl wie dem Lebenslauf (was hier keinen Sinn macht)?
whuber
Ich verwende den Lebenslauf, um Unterschiede in den Mitteln zwischen den Parzellen zu berücksichtigen. Ist das nicht sinnvoll, da die Werte in allen Darstellungen zwischen -1 und +1 liegen? dh die "tatsächliche Variabilität" würde eher auf Unterschiede zwischen den Parzellen hinweisen?
Prophet60091
2
CV ist per Definition ein relatives Maß für Variation. Es gibt unsinnige Ergebnisse für jeden negativen Mittelwert (Sie können eine negative Menge an Dispersion oder Ausbreitung nicht interpretieren). Bei positiven Mitteln sieht eine bestimmte Menge an Streuung viel größer aus, wenn der Mittelwert klein ist. Wenn dies gewünscht wird, entspricht das, was Sie tun, effektiv dem Vergleich Ihrer Daten auf einer logarithmischen Skala - und das macht keinen Sinn, wenn eine der Daten Null oder negativ sein könnte. Möglicherweise müssen Ihre Daten erneut ausgedrückt werden, um einen guten Vergleich der Variabilität zu ermöglichen. es hängt davon ab, wie sie erzeugt werden.
whuber
+1 zur Erklärung. Während die Mittelwerte meiner Diagramme alle positiv sind, kann es in jedem Diagramm negative Werte geben. Basierend auf dem oben Gesagten und der Antwort von Peter unten scheint es nicht gerechtfertigt zu sein, den Lebenslauf zu verwenden. Ich werde versuchen, die Werte möglicherweise neu zu skalieren und / oder Messungen der tatsächlichen Variabilität zu verwenden.
Prophet60091
1
Wenn Sie Ihre Daten durch Hinzufügen einer Konstante sinnvoll neu skalieren können, bedeutet dies auch, dass der Lebenslauf keine gute Idee ist. Dies liegt daran, dass durch Hinzufügen einer Konstante der Lebenslauf geändert wird, die Variation jedoch nicht.
Peter Flom - Monica wieder einsetzen

Antworten:

11

Überlegen Sie, was Lebenslauf ist: Verhältnis von Standardabweichung zu Mittelwert. Wenn die Variable jedoch positive und negative Werte haben kann, kann der Mittelwert sehr nahe bei 0 liegen. Daher macht CV nicht mehr das, was es tun soll: Geben Sie einen Eindruck davon, wie groß der SD im Vergleich zum Mittelwert ist.

EDIT: In einem Kommentar sagte ich, wenn Sie der Variablen eine Konstante sinnvoll hinzufügen könnten, wäre der Lebenslauf nicht gut. Hier ist ein Beispiel:

set.seed(239920)
x <- rnorm(100, 10, 2)
min(x)#To check that none are negative
(CVX <- sd(x)/mean(x))
x2 <- x + 10
(CVX2 <- sd(x2)/mean(x2))

x2 ist einfach x + 10. Ich denke, es ist intuitiv klar, dass sie gleichermaßen variabel sind; aber Lebenslauf ist anders.

Ein Beispiel aus dem wirklichen Leben wäre, wenn x die Temperatur in Grad C und x2 die Temperatur in Grad K wäre (obwohl man dort argumentieren könnte, dass K die richtige Skala ist, da es eine definierte 0 hat).

Peter Flom - Monica wieder einsetzen
quelle
Danke! Es geht also eher darum, einen Mittelwert nahe Null zu haben und nicht unbedingt positive und negative Werte in Ihren Daten zu haben. Wenn ja, wie nahe an einem Mittelwert von Null wird als "sehr nahe" angesehen? In meinem Fall würde ich sagen, dass ich weit davon entfernt bin, meine Mittel nahe Null zu haben. Gibt es einen endgültigen Weg, dies festzustellen?
Prophet60091
Nein, die Sorge ist, dass der Lebenslauf nicht mehr das tut, was er tun soll, selbst wenn es nur einen negativen Wert gibt. Wenn Sie negative Werte haben, verwenden Sie keinen Lebenslauf. Wenn Ihre Werte auf einer beliebigen Skala liegen, verwenden Sie keinen Lebenslauf.
Peter Flom - Monica wieder einsetzen
Könnten Sie der Vollständigkeit halber etwas näher erläutern, warum die Verwendung einer beliebigen Skala die Verwendung des Lebenslaufs ungültig macht? Danke!
Prophet60091
Um ehrlich zu sein, ich denke, @whuber hat den Vergleich von transformierten mit nicht transformierten Daten nicht befürwortet, aber Ihr Punkt ist immer noch klar: Skalierung wirkt sich auf den Lebenslauf aus, wenn man denken könnte, dass die Ergebnisse gleich bleiben sollten. +1 für Spielzeug-R-Code!
Prophet60091
Ich habe kein Argument mit @whubers Kommentaren zu diesem Thread.
Peter Flom - Monica wieder einsetzen
0

Ich betrachte diese als verschiedene Variationsmodelle. Es gibt statistische Modelle, bei denen der Lebenslauf konstant ist. Wo diese arbeiten, kann man einen Lebenslauf melden. Es gibt Modelle, bei denen die Standardabweichung eine Potenzfunktion des Mittelwerts ist. Es gibt Modelle, bei denen die Standardabweichung konstant ist. In der Regel ist ein Konstant-CV-Modell für Verhältnisskalenvariablen eine bessere anfängliche Schätzung als ein Konstant-SD-Modell. Sie können darüber spekulieren, warum dies der Fall ist, möglicherweise basierend auf der Prävalenz multiplikativer und nicht additiver Interaktionen.

Die Modellierung mit konstantem CV ist häufig mit einer logarithmischen Transformation verbunden. (Eine wichtige Ausnahme ist eine nicht negative Antwort, die manchmal Null ist.) Es gibt verschiedene Möglichkeiten, dies zu betrachten. Erstens, wenn der CV konstant ist, sind Protokolle die herkömmliche varianzstabilisierende Transformation. Wenn Ihr Fehlermodell alternativ normal mit der SD-Konstante in der Protokollskala ist, ist der Lebenslauf eine einfache Transformation dieser SD. CV ist ungefähr gleich logarithmischer SD, wenn beide klein sind.

Es gibt zwei Möglichkeiten, die Methoden von stats 101 wie eine Standardabweichung auf die Daten anzuwenden, wie Sie sie erhalten haben, oder (insbesondere wenn es sich um eine Verhältnisskala handelt) auf ihre Protokolle. Sie gehen davon aus, dass die Natur etwas komplizierter sein könnte und dass weitere Studien angebracht sein könnten. Berücksichtigen Sie, was die Leute zuvor mit Ihrer Art von Daten als produktiv empfunden haben.

Hier ist ein Fall, in dem dieses Zeug wichtig ist. Chemische Konzentrationen werden manchmal mit CV zusammengefasst oder in einer logarithmischen Skala modelliert. Der pH-Wert ist jedoch eine logarithmische Konzentration.

Heißgas
quelle
3
Vielen Dank für Ihren Beitrag und herzlich willkommen auf unserer Website! Könnten Sie klarer machen, wie Ihre Antwort die Frage nach der Gültigkeit der Verwendung eines Lebenslaufs zur Charakterisierung von Daten mit negativen Werten beantwortet? Diese Situation scheint von keiner Ihrer Bemerkungen abgedeckt zu werden.
whuber