Ich habe einen empirisch gesammelten Datensatz, der zwei Variablen in Beziehung setzt. Über einen kleinen Bereich erscheint die Beziehung linear, über einen größeren Bereich gibt es jedoch eindeutig eine Polynombeziehung zweiter Ordnung, wie im Bild unter http://imgur.com/W7f9p zu sehen ist .
Ich versuche, ein Maß für die Linearität für verschiedene berücksichtigte Bereiche zu erhalten. ZB bei 20 <x <60 oder 100 <x <120 ist es sehr linear, aber bei 20 <x <180 ist es nicht sehr linear. Ich habe versucht, eine gerade Linie an die Daten anzupassen und die R ^ 2-Daten (Anpassungsgüte) zu berechnen, aber dies zeigt, dass die gerade Linie über den größeren Bereich besser passt als über den kleineren Bereich. Während dies bei MS Excel der Fall sein mag, ist aus dem Bild ersichtlich, dass der größere Bereich weniger linear ist ... wenn Sie die Seite eines Blattes Papier gegen die Punkte halten.
Gibt es eine bessere Möglichkeit, die "Linearität" eines Datensatzes zu messen?
quelle
Antworten:
Passen Sie eine quadratische statt einer linearen Funktion an. Der Absolutwert der Schätzung des höchsten Koeffizienten des Quadrats dient als sinnvolles Maß für die Linearität, die Null ist, wenn die Daten genau auf einer Linie liegen. Wenn die Daten aus einem linearen Modell mit Gaußschem Rauschen stammen, garantiert das Gauß-Markov-Theorem außerdem, dass die Koeffizientenschätzungen unverzerrt sind, und daher wird bei Wiederholung der Anpassung mit mehreren Daten aus derselben Modellverteilung der erwartete Wert des Koeffizienten sein Null.
Natürlich bekommt man bei einer einzelnen Anpassung normalerweise keine Null, daher müsste man einen Test für die Signifikanz der Koeffizienten verwenden.
quelle
Ein Weg wäre, eine hierarchische Regression mit Ihrer Y-Achsenvariablen als Ergebnis / Kriterium durchzuführen. In Schritt / Block 1 geben Sie Ihre X-Variable als Prädiktor ein und in Schritt / Block 2 geben Sie einen Produktterm ein (X im Quadrat oder multipliziert mit sich selbst). Der X-Quadrat-Term repräsentiert Ihre quadratische Komponente. Die standardisierten Regressionsgewichte (Betas) für X und X im Quadrat geben Ihnen einen Eindruck von der "Stärke" der linearen und quadratischen Komponenten relativ zueinander und der Änderung des R-Quadrats von Schritt / Block 1 zu Schritt / Block 2 ist ein Hinweis darauf, wie viel besser das Modell zu den Daten passt, wenn Sie die quadratische Komponente hinzugefügt haben.
Siehe Kap. 8 in Keith, TZ (2005). Multiple Regression und darüber hinaus. Allyn & Bacon. 978-0205326440
quelle
Das beste Maß für die Linearität zwischen zwei Variablen x und y ist der Pearson-Produktmomentkorrelationskoeffizient. Je näher der absolute Wert an 1 liegt, desto näher liegt die Anpassung an einer perfekten geraden Linie. Wenn Sie nun glauben, dass eine Subregion eine gute Linearität aufweist, berechnen Sie die Korrelation nur für diese Paare in der Subregion. Wenn sich die Form außerhalb dieses Bereichs ändert, sollte sich die Korrelation in einem Abfall der Korrelation zeigen, wenn alle Daten enthalten sind.
quelle
Die statistischen Standardwerkzeuge sind der Korrelationskoeffizient (siehe Antwort von Michael Chernick), ein Wert zwischen [-1,1] und einheitenunabhängig. Bezogen auf den Korrelationskoeffizienten ist die Kovarianz. Die Kovarianz wird durch Einheiten beeinflusst, ist jedoch möglicherweise leichter zu interpretieren. Ich mag jedoch keine dieser Optionen im allgemeinen Fall. Ich mag sie nicht, weil sie nicht unabhängig von der konformen Transformation sind. Beachten Sie, dass eine gerade horizontale oder vertikale Linie bei beiden Maßnahmen als nicht linear angesehen wird.
Eine bessere Option ohne Einheit ist die Verwendung einer SVD (Singular Value Decomposition). Die SVD zerlegt Daten in Komponenten, die nach der Größe ihres Beitrags zum Ganzen geordnet sind. Das Verhältnis der größten Singularzahl zur zweitgrößten Singularzahl ist daher eine Metrik der Linearität. Beachten Sie, dass Sie zur Verwendung dieser Methode zuerst die Daten zentralisieren müssen (machen Sie die durchschnittlichen X-, Y-, Z- usw. Koordinaten gleich Null).
Beispiel: Pkt.: 1126640.141 233575.2013; 1126630.008 233572.8567; 1126625.829 233572.7434;
1126625.416 233577.3781;
Zentralisierte Punkte: 9.792639127 0.656480018; -0,340591673 -1,68817349; -4,519928343 -1,801499913; -4,932119113 2,833193384;
SVD, D-Matrix: 11,86500017 0; 0 3,813448344
Verhältnis der Singularwerte 3.111357
Das obige Verhältnis kann grob so interpretiert werden, dass die Daten in Richtung der Best-Fit-Linie dreimal so lang sind wie kreuzlinear.
Für eine Lösung mit Einheiten, die Einheiten haben und keine SVD benötigen. Führen Sie eine Linienanpassung durch, bei der der Mittelpunkt der Linie einer der Parameter ist. Die Verwendung der oben genannten zentralisierten Daten ist einfach: Zeile pt = 0 0 (bei zentralisierten Daten immer der Fall) Zeilenrichtung = -0,999956849 -0,009289783
Vektoren von der Mitte der Linie zu jedem Punkt sind die zentralisierten Koordinaten der Punkte. Bestimmen Sie die Länge der Projektion dieser Vektoren auf die Linie (absoluter Wert des Vektors punktiert die Linienrichtung) und die Länge der senkrechten Vektorkomponente (Länge der Vektorkreuzungslinienrichtung). Länge parallel, Länge senkrecht 9,798315123, 0,565480194; 0,356259742, 1,684936621; 4,536468847, 1,759433021; 4,905586534, 2,878889448;
Das Maximum paralleler Projektionen ist die Datenstrecke entlang der Linie. Die maximale Länge der senkrechten Projektion ist ein Maß für die Nichtlinearität. Das Verhältnis der beiden ist eine Annäherung an das obige Verhältnis der Singularwerte.
Anmerkungen 1. Eine affine Invarianz in der Linearität ist nicht möglich. Bedenken Sie, dass wir in einer affinen Transformation alle Koordinatenachsen bis auf eine auf nahe Null skalieren könnten (wodurch jeder Satz von Punkten linear wird). Konforme Invarianz ist also das Beste, was wir tun können. 2. Diese Methoden sind NICHT ROBUST für Ausreißerdaten. 3. Beispiele sind 2D, aber auf N-dimensional verallgemeinert.
quelle