Schauen Sie sich dieses Excel-Diagramm an:
Die Best-Fit-Linie für den gesunden Menschenverstand scheint eine fast vertikale Linie zu sein, die direkt durch die Mitte der Punkte verläuft (von Hand in Rot bearbeitet). Die von Excel festgelegte lineare Trendlinie ist jedoch die dargestellte diagonale schwarze Linie.
- Warum hat Excel etwas produziert, das (für das menschliche Auge) falsch zu sein scheint?
- Wie kann ich eine am besten passende Linie erzeugen, die etwas intuitiver aussieht (dh so etwas wie die rote Linie)?
Update 1. Eine Excel-Tabelle mit Daten und Grafiken ist hier verfügbar: Beispieldaten , CSV in Pastebin . Sind die Regressionstechniken Typ1 und Typ2 als Excel-Funktionen verfügbar?
Update 2. Die Daten stellen einen Gleitschirm dar, der in einer Thermik klettert, während er mit dem Wind treibt. Das Endziel ist es zu untersuchen, wie sich Windstärke und -richtung mit der Höhe ändern. Ich bin Ingenieur, kein Mathematiker oder Statistiker, daher haben mir die Informationen in diesen Antworten viel mehr Forschungsgebiete eröffnet.
quelle
Antworten:
Gibt es eine abhängige Variable?
Die Trendlinie in Excel ergibt sich aus der Regression der abhängigen Variablen "lat" auf die unabhängige Variable "lon". Was Sie als "Common-Sense-Linie" bezeichnen, erhalten Sie, wenn Sie keine abhängige Variable festlegen und sowohl den Breitengrad als auch den Längengrad gleich behandeln. Letzteres kann durch Anwenden von PCA erhalten werden . Insbesondere ist es einer der Eigenvektoren der Kovarianzmatrix dieser Variablen. Sie können sich das als eine Linie vorstellen, die den kürzesten Abstand von einem gegebenen Punkt zu einer Linie selbst minimiert, dh Sie zeichnen eine Senkrechte zu einer Linie und minimieren die Summe dieser für jede Beobachtung.( xich, yich)
Hier ist, wie Sie es in R tun könnten:
Ob Sie die Variablen gleich behandeln möchten oder nicht, hängt vom Ziel ab. Es ist nicht die inhärente Qualität der Daten. Sie müssen das richtige statistische Tool auswählen, um die Daten zu analysieren. Wählen Sie in diesem Fall zwischen Regression und PCA.
Eine Antwort auf eine Frage, die nicht gestellt wurde
Warum ist in Ihrem Fall eine (Regressions-) Trendlinie in Excel kein geeignetes Werkzeug für Ihren Fall? Der Grund ist, dass die Trendlinie eine Antwort auf eine Frage ist, die nicht gestellt wurde. Hier ist der Grund.
Stellen Sie sich vor, es wehte kein Wind. Ein Gleitschirm würde immer wieder den gleichen Kreis machen. Was wäre die Trendlinie? Offensichtlich wäre es eine flache horizontale Linie, die Steigung wäre Null, aber das bedeutet nicht, dass der Wind in horizontaler Richtung weht!
R-Code für die Simulation:
Die Windrichtung ist also eindeutig überhaupt nicht mit der Trendlinie ausgerichtet. Sie sind natürlich miteinander verbunden, aber auf nicht triviale Weise. Daher meine Aussage, dass die Excel-Trendlinie eine Antwort auf eine Frage ist, aber nicht die, die Sie gestellt haben.
Warum PCA?
Wie Sie bemerkt haben, gibt es mindestens zwei Komponenten der Bewegung eines Gleitschirms: die Drift mit einer Wind- und Kreisbewegung, die von einem Gleitschirm gesteuert wird. Dies ist deutlich zu sehen, wenn Sie die Punkte auf Ihrem Grundstück verbinden:
Einerseits ist die kreisförmige Bewegung für Sie wirklich ein Ärgernis: Sie interessieren sich für den Wind. Auf der anderen Seite beobachten Sie nicht die Windgeschwindigkeit, sondern nur den Gleitschirm. Ihr Ziel ist es also, den unbeobachtbaren Wind aus der Positionsmessung des beobachtbaren Gleitschirms abzuleiten. Dies ist genau die Situation, in der Tools wie Faktoranalyse und PCA nützlich sein können.
Das Ziel von PCA ist es, einige Faktoren zu isolieren, die die Mehrfachausgaben bestimmen, indem die Korrelationen in den Ausgaben analysiert werden. Es ist effektiv, wenn die Ausgabe linear mit Faktoren verknüpft ist, was in Ihren Daten der Fall ist: Die Winddrift addiert sich einfach zu den Koordinaten der Kreisbewegung. Deshalb arbeitet PCA hier.
PCA-Setup
Also haben wir festgelegt, dass PCA hier eine Chance haben sollte, aber wie werden wir es tatsächlich einrichten? Beginnen wir mit dem Hinzufügen einer dritten Variablen, der Zeit. Wir werden jeder 123 Beobachtung die Zeit 1 bis 123 zuweisen, unter der Annahme, dass die Abtastfrequenz konstant ist. So sieht die 3D-Darstellung der Daten aus und zeigt die Spiralstruktur:
Das nächste Diagramm zeigt das imaginäre Drehzentrum eines Gleitschirms als braune Kreise. Sie können sehen, wie es im Lat-Lon-Flugzeug mit dem Wind treibt, während der mit einem blauen Punkt gezeigte Gleitschirm um ihn kreist. Die Zeit ist auf der vertikalen Achse. Ich verband das Drehzentrum mit einer entsprechenden Stelle eines Gleitschirms, der nur die ersten beiden Kreise zeigte.
Der entsprechende R-Code:
Die Drift des Rotationszentrums des Gleitschirms wird hauptsächlich durch den Wind verursacht, und der Weg und die Geschwindigkeit der Drift korrelieren mit der Richtung und der Geschwindigkeit des Windes, nicht beobachtbare interessierende Variablen. So sieht die Drift aus, wenn sie auf das Lat-Lon-Flugzeug projiziert wird:
PCA-Regression
Also haben wir früher festgestellt, dass die reguläre lineare Regression hier nicht sehr gut zu funktionieren scheint. Wir haben auch herausgefunden, warum: weil es den zugrunde liegenden Prozess nicht widerspiegelt, weil die Bewegung des Gleitschirms sehr nichtlinear ist. Es ist eine Kombination aus Kreisbewegung und linearer Drift. Wir haben auch diskutiert, dass in dieser Situation die Faktorenanalyse hilfreich sein könnte. Im Folgenden wird ein möglicher Ansatz zur Modellierung dieser Daten skizziert: PCA-Regression . Aber Faust werde ich Ihnen die PCA Regression zeigen ausgestattet Kurve:
Dies wurde wie folgt erreicht. Führen Sie PCA für den Datensatz mit der zusätzlichen Spalte t = 1: 123 aus, wie bereits erläutert. Sie erhalten drei Hauptkomponenten. Der erste ist einfach t. Die zweite Spalte entspricht der Lon-Spalte und die dritte der Lat-Spalte.
Das ist es. Um die angepassten Werte zu erhalten, stellen Sie die Daten von angepassten Komponenten wieder her, indem Sie die Transponierte der PCA-Rotationsmatrix in die vorhergesagten Hauptkomponenten stecken. Mein R-Code oben zeigt Teile der Prozedur und den Rest können Sie leicht herausfinden.
Fazit
Es ist interessant zu sehen, wie leistungsfähig PCA und andere einfache Tools sind, wenn es um physikalische Phänomene geht, bei denen die zugrunde liegenden Prozesse stabil sind und die Eingaben über lineare (oder linearisierte) Beziehungen in Ausgaben umgewandelt werden. In unserem Fall ist die Kreisbewegung also sehr nichtlinear, aber wir können sie leicht linearisieren, indem wir Sinus / Cosinus-Funktionen für einen Zeit-t-Parameter verwenden. Wie Sie gesehen haben, wurden meine Zeichnungen mit nur wenigen Zeilen R-Code erstellt.
Das Regressionsmodell sollte den zugrunde liegenden Prozess widerspiegeln, dann können nur Sie erwarten, dass seine Parameter aussagekräftig sind. Wenn dies ein Gleitschirm ist, der im Wind treibt, dann wird eine einfache Streudiagramm wie in der ursprünglichen Frage die Zeitstruktur des Prozesses verbergen.
Auch die Excel-Regression war eine Querschnittsanalyse, für die die lineare Regression am besten funktioniert, während Ihre Daten ein Zeitreihenprozess sind, bei dem die Beobachtungen zeitlich geordnet sind. Die Zeitreihenanalyse muss hier angewendet werden und wurde in der PCA-Regression durchgeführt.
Hinweise zu einer Funktion
quelle
Die Antwort hat wahrscheinlich damit zu tun, wie Sie den Abstand zur Regressionsgeraden mental einschätzen. Die Standardregression (Typ 1) minimiert den quadratischen Fehler, wobei der Fehler basierend auf dem vertikalen Abstand zur Linie berechnet wird .
Die Typ-2-Regression entspricht möglicherweise eher Ihrer Beurteilung der besten Linie. Darin ist der minimierte quadratische Fehler der senkrechte Abstand zur Linie . Dieser Unterschied hat eine Reihe von Konsequenzen. Eine wichtige ist, dass Sie eine andere Beziehung zwischen den Variablen für die Typ 1-Regression erhalten, wenn Sie die X- und Y-Achse in Ihrem Diagramm vertauschen und die Linie neu anpassen. Bei der Typ-2-Regression bleibt die Beziehung unverändert.
Mein Eindruck ist, dass es eine Menge Debatten darüber gibt, wo Regression vom Typ 1 vs. Typ 1-Regression wird häufig empfohlen, wenn eine Achse entweder experimentell gesteuert oder zumindest mit weitaus weniger Fehlern als die andere gemessen wird. Wenn diese Bedingungen nicht erfüllt sind, führt die Regression vom Typ 1 zu einer Neigung in Richtung 0, weshalb die Regression vom Typ 2 empfohlen wird. Bei ausreichendem Rauschen in beiden Achsen tendiert die Typ-2-Regression offenbar dazu, sie in Richtung 1 zu tendieren. Warton et al. (2006) und Smith (2009) sind gute Quellen zum Verständnis der Debatte.
Beachten Sie auch, dass es mehrere subtil unterschiedliche Methoden gibt, die in die breite Kategorie der Typ-2-Regression fallen (Hauptachse, reduzierte Hauptachse und Standard-Hauptachsen-Regression), und dass die Terminologie zu den spezifischen Methoden inkonsistent ist.
Warton, DI, IJ Wright, DS Falster und M. Westoby. 2006. Bivariate Linienanpassungsmethoden für die Allometrie. Biol. Rev. 81: 259–291. doi: 10.1017 / S1464793106007007
Smith, RJ 2009. Zur Verwendung und zum Missbrauch der reduzierten Hauptachse für die Leitungsmontage. Am. J. Phys. Anthropol. 140: 476–486. doi: 10.1002 / ajpa.21090
EDIT :
@amoeba weist darauf hin, dass das, was ich oben als Typ 2-Regression bezeichne, auch als orthogonale Regression bezeichnet wird. Dies kann der passendere Begriff sein. Wie ich bereits sagte, ist die Terminologie in diesem Bereich inkonsistent, was besondere Sorgfalt erfordert.
quelle
Die Frage, die Excel zu beantworten versucht, lautet: "Unter der Annahme, dass y von x abhängt, sagt welche Zeile y am besten voraus". Die Antwort ist, dass aufgrund der enormen Variationen in y möglicherweise keine Linie besonders gut sein könnte und dass Excel-Anzeigen das Beste sind, was Sie tun können.
Wenn Sie Ihre vorgeschlagene rote Linie nehmen und sie bis zu x = -0,714 und x = -0,712 fortsetzen, werden Sie feststellen, dass ihre Werte weit vom Diagramm entfernt sind und sich in einem großen Abstand von den entsprechenden y-Werten befinden .
Die Frage, die Excel beantwortet, lautet nicht "welche Linie den Datenpunkten am nächsten ist", sondern "welche Linie ist am besten geeignet, um y-Werte aus x-Werten vorherzusagen", und dies wird korrekt durchgeführt.
quelle
Ich möchte den anderen Antworten nichts hinzufügen, aber ich möchte sagen, dass Sie durch eine schlechte Terminologie in die Irre geführt wurden, insbesondere durch den Begriff "Best-Fit-Linie", der in einigen Statistikkursen verwendet wird.
Intuitiv würde eine "Linie der besten Anpassung" wie Ihre rote Linie aussehen. Die von Excel erzeugte Linie ist jedoch keine "Linie der besten Anpassung". es versucht nicht einmal zu sein. Diese Zeile beantwortet die Frage: Was ist angesichts des Werts von x meine bestmögliche Vorhersage für y? oder alternativ, was ist der durchschnittliche y-Wert für jeden x-Wert?
Beachten Sie die Asymmetrie zwischen x und y; Die Verwendung des Namens "Linie der besten Anpassung" verdeckt dies. Dies gilt auch für die Verwendung von "Trendlinie" in Excel.
Es wird sehr gut unter folgendem Link erklärt:
https://www.stat.berkeley.edu/~stark/SticiGui/Text/regression.htm
Vielleicht möchten Sie etwas Ähnliches wie "Typ 2" in der obigen Antwort oder "SD Line" auf der Berkeley-Statistik-Kursseite.
quelle
Ein Teil des optischen Problems liegt in den verschiedenen Maßstäben. Wenn Sie auf beiden Achsen den gleichen Maßstab verwenden, sieht dieser bereits unterschiedlich aus.
Mit anderen Worten, Sie können die meisten dieser Linien mit "bester Anpassung" als "nicht intuitiv" betrachten, indem Sie eine Achsenskala nach außen streichen.
quelle
Einige Personen haben bemerkt, dass das Problem visuell ist - die verwendete grafische Skalierung erzeugt irreführende Informationen. Genauer gesagt ist die Skalierung von "lon" so, dass es sich um eine enge Spirale zu handeln scheint, was darauf hindeutet, dass die Regressionslinie eine schlechte Anpassung liefert (eine Einschätzung, der ich zustimme, dass die von Ihnen gezogene rote Linie bei Datenfehlern im Quadrat niedriger ist wurden in der vorgestellten Weise geformt).
Im Folgenden stelle ich ein in Excel erstelltes Streudiagramm mit einer Skalierung für "lon" zur Verfügung, die so geändert wurde, dass die enge Spirale in Ihrem Streudiagramm nicht erzeugt wird. Mit dieser Änderung bietet die Regressionslinie jetzt eine bessere visuelle Anpassung und ich denke, sie zeigt, wie die Skalierung im ursprünglichen Streudiagramm zu einer irreführenden Beurteilung der Anpassung geführt hat.
Ich denke, dass die Regression hier gut funktioniert. Ich denke nicht, dass eine komplexere Analyse erforderlich ist.
Für alle Interessierten habe ich die Daten mit einem Mapping-Tool aufgezeichnet und die an die Daten angepasste Regression angezeigt. Die roten Punkte sind die aufgezeichneten Daten und die grüne ist die Regressionslinie.
Und hier sind die gleichen Daten in einem Streudiagramm mit Regressionsgeraden; hier wird lat als abhängiger Wert behandelt und lat-Scores werden umgekehrt, um sie an das geografische Profil anzupassen.
quelle
Ihre verwirrende gewöhnliche Regression der kleinsten Quadrate (OLS) (minimiert die Summe der quadratischen Abweichung um die vorhergesagten Werte (beobachtet-vorhergesagt) ^ 2) und die Regression der Hauptachse (minimiert die Quadratsummen des senkrechten Abstands zwischen jedem Punkt und Regressionsgerade, manchmal auch als Typ-II-Regression, orthogonale Regression oder standardisierte Hauptkomponenten-Regression bezeichnet).
Wenn Sie die beiden Ansätze nur in R vergleichen möchten, lesen Sie einfach
Was Sie am intuitivsten finden (Ihre rote Linie), ist nur die Regression der Hauptachse, die visuell tatsächlich die logischste ist, da sie den senkrechten Abstand zu Ihren Punkten minimiert. Die OLS-Regression scheint nur dann den senkrechten Abstand zu Ihren Punkten zu minimieren, wenn sich die Variablen x und y auf derselben Messskala befinden und / oder die gleiche Fehlermenge aufweisen (Sie können dies einfach anhand des Satzes von Pythagoras sehen). In Ihrem Fall hat Ihre y-Variable eine viel größere Streuung, daher der Unterschied ...
quelle
Die PCA-Antwort ist die beste, weil ich denke, dass Sie dies tun sollten, wenn Sie Ihre Problembeschreibung angeben. Die PCA-Antwort kann jedoch PCA und Regression verwirren, die völlig unterschiedliche Dinge sind. Wenn Sie diesen bestimmten Datensatz extrapolieren möchten, müssen Sie eine Regression durchführen, und wahrscheinlich möchten Sie eine Deming-Regression durchführen (die, wie ich denke, manchmal vom Typ II ausgeht, noch nie von dieser Beschreibung gehört hat). Wenn Sie jedoch herausfinden möchten, welche Richtungen am wichtigsten sind (Eigenvektoren) und eine Metrik ihrer relativen Auswirkung auf den Datensatz (Eigenwerte) haben, ist PCA der richtige Ansatz.
quelle