Die Linie der besten Passform sieht nicht nach einer guten Passform aus. Warum?

82

Schauen Sie sich dieses Excel-Diagramm an: der Graph

Die Best-Fit-Linie für den gesunden Menschenverstand scheint eine fast vertikale Linie zu sein, die direkt durch die Mitte der Punkte verläuft (von Hand in Rot bearbeitet). Die von Excel festgelegte lineare Trendlinie ist jedoch die dargestellte diagonale schwarze Linie.

  1. Warum hat Excel etwas produziert, das (für das menschliche Auge) falsch zu sein scheint?
  2. Wie kann ich eine am besten passende Linie erzeugen, die etwas intuitiver aussieht (dh so etwas wie die rote Linie)?

Update 1. Eine Excel-Tabelle mit Daten und Grafiken ist hier verfügbar: Beispieldaten , CSV in Pastebin . Sind die Regressionstechniken Typ1 und Typ2 als Excel-Funktionen verfügbar?

Update 2. Die Daten stellen einen Gleitschirm dar, der in einer Thermik klettert, während er mit dem Wind treibt. Das Endziel ist es zu untersuchen, wie sich Windstärke und -richtung mit der Höhe ändern. Ich bin Ingenieur, kein Mathematiker oder Statistiker, daher haben mir die Informationen in diesen Antworten viel mehr Forschungsgebiete eröffnet.

ConanTheGerbil
quelle
5
Um ehrlich zu sein, bezweifle ich, dass dies eine Frage der Deming-Regression im Vergleich zur OLS ist. Angesichts der sehr kleinen absoluten Variabilität in und würde ich eher annehmen, dass dies ein numerisches Problem in Excel ist. Können Sie Ihre Frage so bearbeiten, dass sie die Daten enthält? yXy
Stephan Kolassa
12
Dieses Phänomen war eine der wichtigsten statistischen Entdeckungen des 19. Jahrhunderts (wenn nicht aller Zeiten). Es wird als Regression zum Mittelwert bezeichnet . In der Tat ist es genau der Grund, warum dieses statistische Verfahren "Regression" genannt wird!
whuber
3
Ich sollte hinzufügen, dass der Hauptgrund, warum die Anpassungen so unterschiedlich aussehen, darin besteht, dass die Darstellung die Skala in der y-Achse so stark überträgt. Indem Sie es zeichnen, bei dem beide Skalen proportional zu den Grenzstandardabweichungen sind, können Sie zu völlig unterschiedlichen Schlussfolgerungen gelangen, welche Anpassung "gesunder Menschenverstand" ist.
whuber
6
@StephanKolassa - Beachten Sie, wie groß der Fehler wäre, wenn Sie die rote Linie verwenden und für vorhersagen . Die rote Linie kann nicht zu den kleinsten Quadraten passen. Excel hat sicherlich seine Probleme, aber ich denke, das ist keines davon. x = - 0,714yX=-0,714
Jbowman
7
Dies wurde bereits mehrfach vor Ort angesprochen (zB siehe hier ). Wenn Sie verstehen, was eine Regressionslinie ist, können Sie leicht erkennen, warum es sich um die schwarze Linie handelt. Stellen Sie sich zwei Fragen: 1: Was ist der Durchschnittswert von y, wenn x ungefähr 0,712 ist? 2. Was sagen die roten und schwarzen Linien voraus? ... [Ich habe das Schließen als Duplikat
vorerst zurückgehalten,

Antworten:

111

Gibt es eine abhängige Variable?

Die Trendlinie in Excel ergibt sich aus der Regression der abhängigen Variablen "lat" auf die unabhängige Variable "lon". Was Sie als "Common-Sense-Linie" bezeichnen, erhalten Sie, wenn Sie keine abhängige Variable festlegen und sowohl den Breitengrad als auch den Längengrad gleich behandeln. Letzteres kann durch Anwenden von PCA erhalten werden . Insbesondere ist es einer der Eigenvektoren der Kovarianzmatrix dieser Variablen. Sie können sich das als eine Linie vorstellen, die den kürzesten Abstand von einem gegebenen Punkt zu einer Linie selbst minimiert, dh Sie zeichnen eine Senkrechte zu einer Linie und minimieren die Summe dieser für jede Beobachtung.(Xich,yich)

Bildbeschreibung hier eingeben

Hier ist, wie Sie es in R tun könnten:

> para <- read.csv("para.csv")
> plot(para)
> 
> # run PCA
> pZ=prcomp(para,rank.=1)
> # look at 1st PC
> pZ$rotation
           PC1
lon 0.09504313
lat 0.99547316
> 
> colMeans(para) # PCA was centered
       lon        lat 
-0.7129371 53.9368720 
> # recover the data from 1st PC
> pc1=t(pZ$rotation %*% t(pZ$x) )
> # center and show
> lines(pc1 + t(t(rep(1,123))) %*% c)

yichy(Xich)

Ob Sie die Variablen gleich behandeln möchten oder nicht, hängt vom Ziel ab. Es ist nicht die inhärente Qualität der Daten. Sie müssen das richtige statistische Tool auswählen, um die Daten zu analysieren. Wählen Sie in diesem Fall zwischen Regression und PCA.

Eine Antwort auf eine Frage, die nicht gestellt wurde

Warum ist in Ihrem Fall eine (Regressions-) Trendlinie in Excel kein geeignetes Werkzeug für Ihren Fall? Der Grund ist, dass die Trendlinie eine Antwort auf eine Frage ist, die nicht gestellt wurde. Hier ist der Grund.

leint=ein+b×lOn

Stellen Sie sich vor, es wehte kein Wind. Ein Gleitschirm würde immer wieder den gleichen Kreis machen. Was wäre die Trendlinie? Offensichtlich wäre es eine flache horizontale Linie, die Steigung wäre Null, aber das bedeutet nicht, dass der Wind in horizontaler Richtung weht!

yX

Bildbeschreibung hier eingeben

R-Code für die Simulation:

t=1:123
a=1 #1
b=0 #1/10
y=10*sin(t)+a*t
x=10*cos(t)+b*t

plot(x,y,xlim=c(-60,60))
xp=-60:60
lines(b*t,a*t,col='red')

model=lm(y~x)
lines(xp,xp*model$coefficients[2]+model$coefficients[1])

Die Windrichtung ist also eindeutig überhaupt nicht mit der Trendlinie ausgerichtet. Sie sind natürlich miteinander verbunden, aber auf nicht triviale Weise. Daher meine Aussage, dass die Excel-Trendlinie eine Antwort auf eine Frage ist, aber nicht die, die Sie gestellt haben.

Warum PCA?

Wie Sie bemerkt haben, gibt es mindestens zwei Komponenten der Bewegung eines Gleitschirms: die Drift mit einer Wind- und Kreisbewegung, die von einem Gleitschirm gesteuert wird. Dies ist deutlich zu sehen, wenn Sie die Punkte auf Ihrem Grundstück verbinden:

Bildbeschreibung hier eingeben

Einerseits ist die kreisförmige Bewegung für Sie wirklich ein Ärgernis: Sie interessieren sich für den Wind. Auf der anderen Seite beobachten Sie nicht die Windgeschwindigkeit, sondern nur den Gleitschirm. Ihr Ziel ist es also, den unbeobachtbaren Wind aus der Positionsmessung des beobachtbaren Gleitschirms abzuleiten. Dies ist genau die Situation, in der Tools wie Faktoranalyse und PCA nützlich sein können.

Das Ziel von PCA ist es, einige Faktoren zu isolieren, die die Mehrfachausgaben bestimmen, indem die Korrelationen in den Ausgaben analysiert werden. Es ist effektiv, wenn die Ausgabe linear mit Faktoren verknüpft ist, was in Ihren Daten der Fall ist: Die Winddrift addiert sich einfach zu den Koordinaten der Kreisbewegung. Deshalb arbeitet PCA hier.

PCA-Setup

Also haben wir festgelegt, dass PCA hier eine Chance haben sollte, aber wie werden wir es tatsächlich einrichten? Beginnen wir mit dem Hinzufügen einer dritten Variablen, der Zeit. Wir werden jeder 123 Beobachtung die Zeit 1 bis 123 zuweisen, unter der Annahme, dass die Abtastfrequenz konstant ist. So sieht die 3D-Darstellung der Daten aus und zeigt die Spiralstruktur:

Bildbeschreibung hier eingeben

Das nächste Diagramm zeigt das imaginäre Drehzentrum eines Gleitschirms als braune Kreise. Sie können sehen, wie es im Lat-Lon-Flugzeug mit dem Wind treibt, während der mit einem blauen Punkt gezeigte Gleitschirm um ihn kreist. Die Zeit ist auf der vertikalen Achse. Ich verband das Drehzentrum mit einer entsprechenden Stelle eines Gleitschirms, der nur die ersten beiden Kreise zeigte.

Bildbeschreibung hier eingeben

Der entsprechende R-Code:

library(plotly)       

 para <- read.csv("C:/Users/akuketay/Downloads/para.csv")
 n=24

   para$t=1:123 # add time parameter

   # run PCA
     pZ3=prcomp(para)
     c3=colMeans(para) # PCA was centered
     # look at PCs in columns
       pZ3$rotation

       # get the imaginary center of rotation 
       pc31=t(pZ3$rotation[,1] %*% t(pZ3$x[,1]) )
     eye = pc31 + t(t(rep(1,123))) %*% c3
     eyedata = data.frame(eye)

     p = plot_ly(x=para[1:n,1],y=para[1:n,2],z=para[1:n,3],mode="lines+markers",type="scatter3d") %>%
       layout(showlegend=FALSE,scene=list(xaxis = list(title = 'lat'),yaxis = list(title = 'lon'),zaxis = list(title = 't'))) %>%
     add_trace(x=eyedata[1:n,1],y=eyedata[1:n,2],z=eyedata[1:n,3],mode="markers",type="scatter3d") 
     for( i in 1:n){
         p = add_trace(p,x=c(eyedata[i,1],para[i,1]),y=c(eyedata[i,2],para[i,2]),z=c(eyedata[i,3],para[i,3]),color="black",mode="lines",type="scatter3d")
       }

subplot(p)

Die Drift des Rotationszentrums des Gleitschirms wird hauptsächlich durch den Wind verursacht, und der Weg und die Geschwindigkeit der Drift korrelieren mit der Richtung und der Geschwindigkeit des Windes, nicht beobachtbare interessierende Variablen. So sieht die Drift aus, wenn sie auf das Lat-Lon-Flugzeug projiziert wird:

Bildbeschreibung hier eingeben

PCA-Regression

Also haben wir früher festgestellt, dass die reguläre lineare Regression hier nicht sehr gut zu funktionieren scheint. Wir haben auch herausgefunden, warum: weil es den zugrunde liegenden Prozess nicht widerspiegelt, weil die Bewegung des Gleitschirms sehr nichtlinear ist. Es ist eine Kombination aus Kreisbewegung und linearer Drift. Wir haben auch diskutiert, dass in dieser Situation die Faktorenanalyse hilfreich sein könnte. Im Folgenden wird ein möglicher Ansatz zur Modellierung dieser Daten skizziert: PCA-Regression . Aber Faust werde ich Ihnen die PCA Regression zeigen ausgestattet Kurve:

Bildbeschreibung hier eingeben

Dies wurde wie folgt erreicht. Führen Sie PCA für den Datensatz mit der zusätzlichen Spalte t = 1: 123 aus, wie bereits erläutert. Sie erhalten drei Hauptkomponenten. Der erste ist einfach t. Die zweite Spalte entspricht der Lon-Spalte und die dritte der Lat-Spalte.

einSünde(ωt+φ)ω,φ

Das ist es. Um die angepassten Werte zu erhalten, stellen Sie die Daten von angepassten Komponenten wieder her, indem Sie die Transponierte der PCA-Rotationsmatrix in die vorhergesagten Hauptkomponenten stecken. Mein R-Code oben zeigt Teile der Prozedur und den Rest können Sie leicht herausfinden.

Fazit

Es ist interessant zu sehen, wie leistungsfähig PCA und andere einfache Tools sind, wenn es um physikalische Phänomene geht, bei denen die zugrunde liegenden Prozesse stabil sind und die Eingaben über lineare (oder linearisierte) Beziehungen in Ausgaben umgewandelt werden. In unserem Fall ist die Kreisbewegung also sehr nichtlinear, aber wir können sie leicht linearisieren, indem wir Sinus / Cosinus-Funktionen für einen Zeit-t-Parameter verwenden. Wie Sie gesehen haben, wurden meine Zeichnungen mit nur wenigen Zeilen R-Code erstellt.

Das Regressionsmodell sollte den zugrunde liegenden Prozess widerspiegeln, dann können nur Sie erwarten, dass seine Parameter aussagekräftig sind. Wenn dies ein Gleitschirm ist, der im Wind treibt, dann wird eine einfache Streudiagramm wie in der ursprünglichen Frage die Zeitstruktur des Prozesses verbergen.

Auch die Excel-Regression war eine Querschnittsanalyse, für die die lineare Regression am besten funktioniert, während Ihre Daten ein Zeitreihenprozess sind, bei dem die Beobachtungen zeitlich geordnet sind. Die Zeitreihenanalyse muss hier angewendet werden und wurde in der PCA-Regression durchgeführt.

Hinweise zu einer Funktion

y=f(X)XyXyyXleint=f(lOn)

Aksakal
quelle
11
ein Sünde ωt+b cos ωt
11
Ob Sie sie gleich behandeln wollen oder nicht, hängt vom Ziel ab. Es ist nicht die inhärente Qualität der Daten. - Großer Punkt und +1.
Richard Hardy
@ NickCox, das stimmt, es wäre auch weniger Arbeit gewesen
Aksakal
Erwähnenswert ist, dass PCA die Verallgemeinerung der Regression der Hauptachse auf die Situation ist, in der Sie> 2 Variablen haben. Da es in diesem Fall jedoch nur 2 Variablen gibt, ist der Standardname für die Technik die Hauptachsenregression (manchmal auch als orthogonale Regression oder Typ-II-Regression bezeichnet).
Tom Wenseleers
61

Die Antwort hat wahrscheinlich damit zu tun, wie Sie den Abstand zur Regressionsgeraden mental einschätzen. Die Standardregression (Typ 1) minimiert den quadratischen Fehler, wobei der Fehler basierend auf dem vertikalen Abstand zur Linie berechnet wird .

Die Typ-2-Regression entspricht möglicherweise eher Ihrer Beurteilung der besten Linie. Darin ist der minimierte quadratische Fehler der senkrechte Abstand zur Linie . Dieser Unterschied hat eine Reihe von Konsequenzen. Eine wichtige ist, dass Sie eine andere Beziehung zwischen den Variablen für die Typ 1-Regression erhalten, wenn Sie die X- und Y-Achse in Ihrem Diagramm vertauschen und die Linie neu anpassen. Bei der Typ-2-Regression bleibt die Beziehung unverändert.

Mein Eindruck ist, dass es eine Menge Debatten darüber gibt, wo Regression vom Typ 1 vs. Typ 1-Regression wird häufig empfohlen, wenn eine Achse entweder experimentell gesteuert oder zumindest mit weitaus weniger Fehlern als die andere gemessen wird. Wenn diese Bedingungen nicht erfüllt sind, führt die Regression vom Typ 1 zu einer Neigung in Richtung 0, weshalb die Regression vom Typ 2 empfohlen wird. Bei ausreichendem Rauschen in beiden Achsen tendiert die Typ-2-Regression offenbar dazu, sie in Richtung 1 zu tendieren. Warton et al. (2006) und Smith (2009) sind gute Quellen zum Verständnis der Debatte.

Beachten Sie auch, dass es mehrere subtil unterschiedliche Methoden gibt, die in die breite Kategorie der Typ-2-Regression fallen (Hauptachse, reduzierte Hauptachse und Standard-Hauptachsen-Regression), und dass die Terminologie zu den spezifischen Methoden inkonsistent ist.

Warton, DI, IJ Wright, DS Falster und M. Westoby. 2006. Bivariate Linienanpassungsmethoden für die Allometrie. Biol. Rev. 81: 259–291. doi: 10.1017 / S1464793106007007

Smith, RJ 2009. Zur Verwendung und zum Missbrauch der reduzierten Hauptachse für die Leitungsmontage. Am. J. Phys. Anthropol. 140: 476–486. doi: 10.1002 / ajpa.21090


EDIT :

@amoeba weist darauf hin, dass das, was ich oben als Typ 2-Regression bezeichne, auch als orthogonale Regression bezeichnet wird. Dies kann der passendere Begriff sein. Wie ich bereits sagte, ist die Terminologie in diesem Bereich inkonsistent, was besondere Sorgfalt erfordert.

mkt
quelle
19
Debatte über die Verwendung von Typ 1 oder Typ 2? Es gibt nichts zu diskutieren, wenn Sie wissen, was Ihr Ziel ist (objektive Funktion oder Verlustfunktion). Und wenn Sie dies nicht tun, sollten Sie dies klären, bevor Sie fortfahren.
Richard Hardy
7
Typ 2 führt auch zu unsinnigen Ergebnissen, wenn beide Achsen unterschiedliche Einheiten verwenden.
John Dvorak
4
Sie verwenden "Typ 1" und "Typ 2", als ob dies Standardbegriffe wären. Sind sie? Ich habe noch nie jemanden angeführt, der übliche Regression und orthogonale Regression "Typ 1" und "Typ 2" nennt.
Amöbe
2
@RichardHardy Natürlich ist es am besten, sein spezifisches Ziel zu klären. Aber wie ich in der Antwort sagte, habe ich den Eindruck, dass es eine anhaltende Debatte über ihre Verwendung in einer Untergruppe von Fällen gibt - und diese Papiere, die ich zitiere (sowie die widersprüchlichen Empfehlungen, die ich immer wieder von Rezensenten erhalte), scheinen dies zu bestätigen.
mkt
3
@mkt, danke für deine Klarstellung. In der Tat könnte es unter Menschen Diskussionen geben, die sich nicht sicher sind, wonach sie suchen. Dort steht im Mittelpunkt der Debatte, welche der beiden für ihr thematisches Ziel relevanter ist. Was ich betonen wollte, ist, dass es keine Debatte gibt, wenn Ihr Ziel genau definiert ist, dh das inhaltliche Ziel wird in eine statistische Sprache übersetzt (was unvermeidlich ist, wenn statistische Methoden angewendet werden sollen). Wir sind uns also einig, dass wir nur verschiedene Teile des Arguments hervorheben.
Richard Hardy
31

Die Frage, die Excel zu beantworten versucht, lautet: "Unter der Annahme, dass y von x abhängt, sagt welche Zeile y am besten voraus". Die Antwort ist, dass aufgrund der enormen Variationen in y möglicherweise keine Linie besonders gut sein könnte und dass Excel-Anzeigen das Beste sind, was Sie tun können.

Wenn Sie Ihre vorgeschlagene rote Linie nehmen und sie bis zu x = -0,714 und x = -0,712 fortsetzen, werden Sie feststellen, dass ihre Werte weit vom Diagramm entfernt sind und sich in einem großen Abstand von den entsprechenden y-Werten befinden .

Die Frage, die Excel beantwortet, lautet nicht "welche Linie den Datenpunkten am nächsten ist", sondern "welche Linie ist am besten geeignet, um y-Werte aus x-Werten vorherzusagen", und dies wird korrekt durchgeführt.

gnasher729
quelle
4
Genau. Die zugrunde liegende Annahme lautet "x ist gegeben, y ist gemessen / vorhergesagt".
Floris
12

Ich möchte den anderen Antworten nichts hinzufügen, aber ich möchte sagen, dass Sie durch eine schlechte Terminologie in die Irre geführt wurden, insbesondere durch den Begriff "Best-Fit-Linie", der in einigen Statistikkursen verwendet wird.

Intuitiv würde eine "Linie der besten Anpassung" wie Ihre rote Linie aussehen. Die von Excel erzeugte Linie ist jedoch keine "Linie der besten Anpassung". es versucht nicht einmal zu sein. Diese Zeile beantwortet die Frage: Was ist angesichts des Werts von x meine bestmögliche Vorhersage für y? oder alternativ, was ist der durchschnittliche y-Wert für jeden x-Wert?

Beachten Sie die Asymmetrie zwischen x und y; Die Verwendung des Namens "Linie der besten Anpassung" verdeckt dies. Dies gilt auch für die Verwendung von "Trendlinie" in Excel.

Es wird sehr gut unter folgendem Link erklärt:

https://www.stat.berkeley.edu/~stark/SticiGui/Text/regression.htm

Vielleicht möchten Sie etwas Ähnliches wie "Typ 2" in der obigen Antwort oder "SD Line" auf der Berkeley-Statistik-Kursseite.

Flunder
quelle
11

Ein Teil des optischen Problems liegt in den verschiedenen Maßstäben. Wenn Sie auf beiden Achsen den gleichen Maßstab verwenden, sieht dieser bereits unterschiedlich aus.

Mit anderen Worten, Sie können die meisten dieser Linien mit "bester Anpassung" als "nicht intuitiv" betrachten, indem Sie eine Achsenskala nach außen streichen.

Aganju
quelle
1
Ich bin damit einverstanden, dass dies die Antwort ist - der X-Bereich der Werte ist ungefähr 0,02 breit, der Y-Bereich jedoch nur ungefähr 0,005 - in der Tat sollte das Diagramm ungefähr 4-mal so breit wie hoch sein, und es wäre offensichtlich, dass Die beste Passform wäre horizontal. Das Phänomen in der Frage ist aufgrund der unterschiedlichen Maßstäbe rein visuell.
RemcoGerlich
3
@RemcoGerlich Wir können zustimmen, dass, wie in der Frage gezeigt, das Seitenverhältnis des Graphen nicht hilfreich ist. Aber der Vorschlag, dass Sie einen viermal so breiten Graphen benötigen, weil sich die Bereiche numerisch in diesem Verhältnis befinden, ist unplausibel und sicherlich keine Tatsache. Wenn die Einheiten auf beiden Achsen um den Faktor 1000 geändert würden, würden Sie ein Seitenverhältnis von 4000 oder 0,004 vorschlagen? Das 4x-Verhältnis ist wahrscheinlich nur ein Nebeneffekt verschiedener Einheiten.
Nick Cox
4
Die anderen Antworten geben die richtige Antwort. Dieser leider nicht. Wenn wir die Werte neu skalieren, so dass wir dasselbe visuelle Bild erhalten, aber mit gleichen Achsen, handelt es sich immer noch um ein Anpassungsproblem "Typ 1" gegenüber "Typ 2".
Hans Janssen
1
Er spricht über den "gesunden Menschenverstand", der am besten zum "menschlichen Auge" passt. Und dann kommt es vor allem auf die Skalierung der Achsen an.
RemcoGerlich
Er hat einen Punkt, manchmal wird das, was intuitiv aussieht, von albernen Dingen wie Skalieren beeinflusst, obwohl dies nicht so ein Fall ist. Hier haben wir eine echte Diskrepanz zwischen dem, was Excel macht und dem, was OP will
Aksakal
4

Einige Personen haben bemerkt, dass das Problem visuell ist - die verwendete grafische Skalierung erzeugt irreführende Informationen. Genauer gesagt ist die Skalierung von "lon" so, dass es sich um eine enge Spirale zu handeln scheint, was darauf hindeutet, dass die Regressionslinie eine schlechte Anpassung liefert (eine Einschätzung, der ich zustimme, dass die von Ihnen gezogene rote Linie bei Datenfehlern im Quadrat niedriger ist wurden in der vorgestellten Weise geformt).

Im Folgenden stelle ich ein in Excel erstelltes Streudiagramm mit einer Skalierung für "lon" zur Verfügung, die so geändert wurde, dass die enge Spirale in Ihrem Streudiagramm nicht erzeugt wird. Mit dieser Änderung bietet die Regressionslinie jetzt eine bessere visuelle Anpassung und ich denke, sie zeigt, wie die Skalierung im ursprünglichen Streudiagramm zu einer irreführenden Beurteilung der Anpassung geführt hat.

Ich denke, dass die Regression hier gut funktioniert. Ich denke nicht, dass eine komplexere Analyse erforderlich ist.

Bildbeschreibung hier eingeben

Für alle Interessierten habe ich die Daten mit einem Mapping-Tool aufgezeichnet und die an die Daten angepasste Regression angezeigt. Die roten Punkte sind die aufgezeichneten Daten und die grüne ist die Regressionslinie.

Bildbeschreibung hier eingeben

Und hier sind die gleichen Daten in einem Streudiagramm mit Regressionsgeraden; hier wird lat als abhängiger Wert behandelt und lat-Scores werden umgekehrt, um sie an das geografische Profil anzupassen.

Bildbeschreibung hier eingeben

Bryan
quelle
1
Regression zeigt nicht die Richtung einer Windbewegung
Aksakal
Wir kennen nur lat und lon, und für die Daten, die zur Verfügung gestellt werden, zeigt es eine Änderung von einem relativ zum anderen.
Bryan
Was bedeutet diese Trendlinie?
Aksakal
Unter der Annahme, dass der erste Punkt in der Datendatei der Startpunkt ist, scheint es eine leichte nördliche Zunahme der Route zu geben, je weiter nach Osten gereist wird. Die Daten geben keine Auskunft über die Windstärke oder -höhe, sondern geben die Richtung an - von Osten nach Norden.
Bryan
Korrektur: Die von mir verwendete Kartierungssoftware fordert Lat-Lon an, aber seine Daten sind Lon-Lat, sodass die Windrichtung leicht von Nord nach Ost ist, dh es gibt eine leichte Ostbewegung, je weiter der Norden reist (oder eine leichte Westbewegung, je weiter der Süden reist) gereist).
Bryan
1

Ihre verwirrende gewöhnliche Regression der kleinsten Quadrate (OLS) (minimiert die Summe der quadratischen Abweichung um die vorhergesagten Werte (beobachtet-vorhergesagt) ^ 2) und die Regression der Hauptachse (minimiert die Quadratsummen des senkrechten Abstands zwischen jedem Punkt und Regressionsgerade, manchmal auch als Typ-II-Regression, orthogonale Regression oder standardisierte Hauptkomponenten-Regression bezeichnet).

Wenn Sie die beiden Ansätze nur in R vergleichen möchten, lesen Sie einfach

data=read.csv("https://pastebin.com/raw/4TsstQYm")
require(lmodel2)
fit = lmodel2(lat ~ lon, data=data)
plot(fit,method="OLS") # ordinary least squares regression

Bildbeschreibung hier eingeben

plot(fit,method="MA") # major axis regression

Bildbeschreibung hier eingeben

Was Sie am intuitivsten finden (Ihre rote Linie), ist nur die Regression der Hauptachse, die visuell tatsächlich die logischste ist, da sie den senkrechten Abstand zu Ihren Punkten minimiert. Die OLS-Regression scheint nur dann den senkrechten Abstand zu Ihren Punkten zu minimieren, wenn sich die Variablen x und y auf derselben Messskala befinden und / oder die gleiche Fehlermenge aufweisen (Sie können dies einfach anhand des Satzes von Pythagoras sehen). In Ihrem Fall hat Ihre y-Variable eine viel größere Streuung, daher der Unterschied ...

Tom Wenseleers
quelle
0

Die PCA-Antwort ist die beste, weil ich denke, dass Sie dies tun sollten, wenn Sie Ihre Problembeschreibung angeben. Die PCA-Antwort kann jedoch PCA und Regression verwirren, die völlig unterschiedliche Dinge sind. Wenn Sie diesen bestimmten Datensatz extrapolieren möchten, müssen Sie eine Regression durchführen, und wahrscheinlich möchten Sie eine Deming-Regression durchführen (die, wie ich denke, manchmal vom Typ II ausgeht, noch nie von dieser Beschreibung gehört hat). Wenn Sie jedoch herausfinden möchten, welche Richtungen am wichtigsten sind (Eigenvektoren) und eine Metrik ihrer relativen Auswirkung auf den Datensatz (Eigenwerte) haben, ist PCA der richtige Ansatz.

Andrew H
quelle
4
Dies ist meist eine Reihe von Kommentaren zu anderen Antworten. Es wäre besser, direkt zu jedem einen Kommentar abzugeben. Ich sehe nicht, dass die Antwort von @Aksakal PCA und Regression überhaupt verwirrt.
Nick Cox
Ich wollte direkt kommentieren, war aber nicht seriös genug. Ich denke nicht, dass Aksakal eine verwirrende Regression ist, aber es lohnt sich, dem OP darauf hinzuweisen, dass PCA und Regression völlig unterschiedlich sind.
Andrew H