Haftungsausschluss: Dies ist für ein Hausaufgabenprojekt.
Ich versuche, das beste Modell für Diamantpreise zu finden, abhängig von mehreren Variablen, und ich scheine bisher ein ziemlich gutes Modell zu haben. Ich bin jedoch auf zwei Variablen gestoßen, die offensichtlich kollinear sind:
>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
Table Depth Carat.Weight
Table 1.00000000 -0.41035485 0.05237998
Depth -0.41035485 1.00000000 0.01779489
Carat.Weight 0.05237998 0.01779489 1.00000000
Tabelle und Tiefe sind voneinander abhängig, aber ich möchte sie trotzdem in mein Vorhersagemodell aufnehmen. Ich habe einige Untersuchungen an Diamanten durchgeführt und festgestellt, dass Tabelle und Tiefe die Länge über der Oberseite und der Abstand von der oberen zur unteren Spitze eines Diamanten sind. Da diese Preise für Diamanten mit Schönheit in Beziehung zu stehen scheinen und Schönheit mit Proportionen in Beziehung zu stehen scheint, wollte ich ihr Verhältnis einbeziehen, sagen wir , um die Preise vorherzusagen. Ist dies das Standardverfahren für den Umgang mit kollinearen Variablen? Wenn nicht, was ist das?
Edit: Hier ist ein Plot von Depth ~ Table:
Antworten:
Diese Variablen sind korreliert.
Das Ausmaß der linearen Assoziation, das durch diese Korrelationsmatrix impliziert wird, ist nicht entfernt genug hoch, um die Variablen als kollinear zu betrachten.
In diesem Fall würde ich gerne alle drei Variablen für typische Regressionsanwendungen verwenden.
Eine Möglichkeit, Multikollinearität zu erkennen, besteht darin, die Choleski-Zerlegung der Korrelationsmatrix zu überprüfen. Wenn Multikollinearität vorliegt, gibt es einige diagonale Elemente, die nahe Null liegen. Hier ist es auf Ihrer eigenen Korrelationsmatrix:
(Die Diagonale sollte immer positiv sein, obwohl einige Implementierungen aufgrund akkumulierter Kürzungsfehler leicht negativ werden können.)
Wie Sie sehen, beträgt die kleinste Diagonale 0,91, was noch weit von Null entfernt ist.
Im Gegensatz dazu sind hier einige fast kollineare Daten:
quelle
Dachte, dieses Diamantschneideschema könnte der Frage einen Einblick geben. Ich kann einem Kommentar kein Bild hinzufügen, daher wurde es zu einer Antwort.
PS. @ PeterEllis 'Kommentar: Die Tatsache, dass "Diamanten, die oben länger sind, von oben nach unten kürzer sind", könnte auf diese Weise sinnvoll sein: Angenommen, alle ungeschnittenen Diamanten sind ungefähr rechteckig (sagen wir). Jetzt muss der Cutter seinen Schnitt mit diesem Begrenzungsrechteck auswählen. Das führt den Kompromiss ein. Wenn sowohl die Breite als auch die Länge zunehmen, entscheiden Sie sich für größere Diamanten. Möglich, aber seltener und teurer. Sinn ergeben?
quelle
Die Verwendung von Verhältnissen in der linearen Regression sollte vermieden werden. Sie sagen im Wesentlichen, dass eine lineare Regression dieser beiden Variablen ohne Schnittpunkt linear korreliert würde. Dies ist offensichtlich nicht der Fall. Siehe: http://cscu.cornell.edu/news/statnews/stnews03.pdf
Außerdem messen sie eine latente Variable - die Größe (Volumen oder Fläche) des Diamanten. Haben Sie darüber nachgedacht, Ihre Daten in ein Oberflächen- / Volumenmaß umzuwandeln, anstatt beide Variablen einzuschließen?
Sie sollten ein Restdiagramm dieser Tiefen- und Tabellendaten veröffentlichen. Ihre Korrelation zwischen den beiden kann sowieso ungültig sein.
quelle
Aus der Korrelation ist es schwierig zu schließen, ob die Tabelle und die Breite tatsächlich korreliert sind. Ein Koeffizient nahe + 1 / -1 würde sagen, dass sie kollinear sind. Dies hängt auch von der Stichprobengröße ab. Wenn Sie mehr Daten haben, bestätigen Sie diese.
Das Standardverfahren beim Umgang mit kollinearen Variablen besteht darin, eine davon zu eliminieren ... weil man weiß, dass eine die andere bestimmen würde.
quelle
Was lässt Sie denken, dass Tabelle und Tiefe Kollinearität in Ihrem Modell verursachen? Allein anhand der Korrelationsmatrix ist schwer zu erkennen, dass diese beiden Variablen Kollinearitätsprobleme verursachen. Was sagt Ihnen ein gemeinsamer F-Test über den Beitrag beider Variablen zu Ihrem Modell? Wie odd_cat erwähnte, ist Pearson möglicherweise nicht das beste Maß für die Korrelation, wenn die Beziehung nicht linear ist (möglicherweise ein rangbasiertes Maß?). VIF und Toleranz können dabei helfen, den Grad Ihrer Kollinearität zu quantifizieren.
Ich denke, Ihr Ansatz, ihr Verhältnis zu verwenden, ist angemessen (wenn auch nicht als Lösung für die Kollinearität). Als ich die Figur sah, dachte ich sofort an eine übliche Maßnahme in der Gesundheitsforschung, das Verhältnis von Taille zu Hüfte. In diesem Fall ähnelt es jedoch eher dem BMI (Gewicht / Größe ^ 2). Wenn das Verhältnis in Ihrem Publikum leicht zu interpretieren und intuitiv ist, sehe ich keinen Grund, es nicht zu verwenden. Möglicherweise können Sie jedoch beide Variablen in Ihrem Modell verwenden, es sei denn, es gibt eindeutige Hinweise auf Kollinearität.
quelle