Kann eine lineare Regression signifikant sein, wenn die Daten nicht linear sind?

11

Ich führte eine lineare Regression durch, die zu einem signifikanten Ergebnis führte. Als ich jedoch das Streudiagramm auf Linearität überprüfte, war ich nicht sicher, ob die Daten linear waren.

Gibt es andere Möglichkeiten, die Linearität zu testen, ohne das Streudiagramm zu untersuchen?

Könnte die lineare Regression signifikant sein, wenn sie nicht linear wäre?

[Bearbeitet, um Streudiagramme einzuschließen]

Geben Sie hier die Bildbeschreibung ein

Geben Sie hier die Bildbeschreibung ein

Geben Sie hier die Bildbeschreibung ein

Geben Sie hier die Bildbeschreibung ein

Ins Blaue
quelle
3
Es kann mehrere Interpretationen der Fragen und mehrere Antworten geben (aber im Grunde ist die Antwort in allen Fällen ja, und wie Ihr Ergebnis beweist, ist dies in Ihrem Fall sicherlich möglich). Können Sie das Streudiagramm zeigen? Dann können andere verstehen, was Sie unter nicht linearen Daten verstehen und in welchem ​​Sinne sich das signifikante Ergebnis ohnehin als vorhanden herausstellte.
Sextus Empiricus
5
Unter stats.stackexchange.com/search?q=anscombe+quartet finden Sie eine klassische Reihe einfacher Beispiele. Unter stats.stackexchange.com/a/152034/919 habe ich einen Algorithmus veröffentlicht, mit dem Beispiele für nahezu alle denkbaren Umstände erstellt werden können.
whuber
Das Ignorieren der Nolinearität kann natürlich zu einem beeinträchtigten Rückschluss bei der Anwendung führen, selbst wenn der allgemeine Trend linear ist. Wenn zum Beispiel die wahre Beziehung darin besteht, dass stark abfällt, wird es über X flacherYX ist die lineare Interpretation von, dass über alle Werte von X um einen durchschnittlichen Betrag abfällt , während die wahre Beziehung darin besteht, dass Y viel stärker abfällt ein viel engerer Bereich von X und über den verbleibenden Bereich von X ist mehr oder weniger unberührt. Die lineare Interpretation wäre schlecht für klinische Behandlungseffekte oder für politische Ausgabeneffekte.YXYXX
Alexis
Auch: lineare Regression ist nicht signifikant oder nicht, sondern Tests von beispielsweise , H 0 : β x = c , H 0 : F = c , H 0 : R 2 = c können signifikant sein oder nicht, mit einem gewissen Maß an Unabhängigkeit. H0:β0=cH0:βx=cH0:F=cH0:R2=c
Alexis
Vielen Dank für die Antworten und Entschuldigung für die langsame Antwort - ich war weg von der Technologie! Ich habe den Beitrag so bearbeitet, dass er Streudiagramme für die Regressionen enthält, die von Bedeutung waren. Jeder Rat, wie man vorgeht, wäre sehr dankbar.
IntoTheBlue

Antworten:

18

Monotone nichtlineare Beziehungen werden bei der Modellierung als lineare Modelle fast immer signifikant angezeigt. Wenn die Beziehung nichtlinear und nicht monoton ist, hängt sie von der Stichprobe ab.

y=lnxy=x3y=x2y=sinx

x[1,1]y=sinxyx

Geben Sie hier die Bildbeschreibung ein

x[0,π]Geben Sie hier die Bildbeschreibung ein

Aksakal
quelle
13
+1. Bitte beachten Sie jedoch, dass der korrekte Begriff "monoton" ist. "Eintönig" bedeutet langweilig und langweilig durch Wiederholung.
whuber
22
lnxsinx
+1 Ich würde auch vorschlagen zu definieren, was monoton bedeutet.
Mark White
Vielen Dank, ich habe den Beitrag so aktualisiert, dass er Streudiagramme enthält. Jeder Rat, wie man vorgeht, wäre sehr dankbar.
IntoTheBlue
(xx¯)2
Aksakal
3

Ja, Aksakal hat Recht und eine lineare Regression kann signifikant sein, wenn die wahre Beziehung nicht linear ist. Eine lineare Regression findet eine Linie, die am besten zu Ihren Daten passt, und testet einfach, ob sich die Steigung signifikant von 0 unterscheidet.

Bevor Sie versuchen, einen statistischen Test für Nichtlinearität zu finden, würde ich vorschlagen, zuerst darüber nachzudenken, was Sie modellieren möchten. Erwarten Sie eine lineare (nichtlineare) Beziehung zwischen Ihren beiden Variablen? Was genau versuchst du aufzudecken? Wenn es sinnvoll ist anzunehmen, dass eine nichtlineare Beziehung besteht, beispielsweise zwischen Fahrzeuggeschwindigkeit und Bremsweg, können Sie quadratische Terme (oder andere Transformationen) Ihrer unabhängigen Variablen hinzufügen.

Eine visuelle Überprüfung Ihrer Daten (Streudiagramm) ist eine sehr leistungsfähige Methode und ein wesentlicher erster Schritt in Ihrer Analyse.

Pawel
quelle
YX
Außerdem: Willkommen im Lebenslauf, Pawel!
Alexis
2
@ Alexis Du hast recht. Das Hinzufügen eines quadratischen Begriffs ist jedoch in einigen Texten immer noch eine häufig verwendete Empfehlung, um schnell und schmutzig auf Nichtlinearität zu prüfen (niemand versteht, dass dies der einzige oder sogar der erste Weg ist, Nichtlinearitäten zu modellieren) nicht ganz so besorgt über diese Passage.
whuber
+1 @whuber Leider habe ich viele Forscher, Studenten und Dozenten getroffen, die das Hinzufügen eines quadratischen Begriffs als erste Überprüfung über das Betrachten eines Streudiagramms als "Testen auf Nichtlinearität" hinaus praktizierten, wobei ein negatives Ergebnis als "linear ist ausreichend" interpretiert wurde ". (Quadratische Begriffe können in der Tat nützlich sein, und ich habe sie in meiner eigenen Forschung verwendet. :) Ich denke, meine Sichtweise auf "schnell und schmutzig" ist, dass das, was als einfach gelehrt wird, für die überwiegende Mehrheit der Forscher zur Strenge wird . Ich denke, nichtparametrische Regressionen sind ungefähr so ​​"einfach" wie linear und ein besseres Werkzeug zum Erkunden.
Alexis
@ Alexis Danke. Ich denke du hast mich missverstanden. Ich habe nicht empfohlen, quadratische Terme hinzuzufügen, um die Nichtlinearität zu testen, aber es kann definitiv Fälle für quadratische Terme geben (oder andere Transformationen. Wirtschaftsdaten werden oft logarithmisch transformiert). Ich denke, es muss zwischen explorativer und erklärender Analyse unterschieden werden. Wenn es begründete Gründe für die Annahme einer quadratischen Beziehung gibt, muss dies geprüft werden. Was Sie vorschlagen, ist ein explorativerer Ansatz.
Pawel
-2

Ich stimme allem zu, was Aksakal sagt. Aber was die erste Frage betrifft, denke ich, dass die Antwort Korrelation ist. Die Korrelation misst das Ausmaß, in dem eine lineare Beziehung zwischen den Datensätzen x und y besteht.

meh
quelle
2
y=lnx
@gung Ja, das tue ich. Welche Aussage von ihm halten Sie für falsch? Lassen Sie mich vorschlagen, dass ich verstehe, was die Wörter linear und nichtlinear bedeuten, und dass es, wie in Aksakals Antwort, wirklich einfach ist, Beispiele für Variablen mit einer exakten und nichtlinearen Beziehung zu finden. Die Korrelation ist jedoch ein Maß für die lineare Beziehung, und eine Korrelation von +/- 1 bedeutet, dass die Beziehung tatsächlich linear ist. Eine geringere Korrelation bedeutet, dass die Beziehung (nicht genau) linear ist, aber eng genug sein kann.
meh
1
Das OP "führte eine lineare Regression durch, die zu einem signifikanten Ergebnis führte", aber das Streudiagramm implizierte, dass die Beziehung nicht linear war. Eine Korrelation wäre wahrscheinlich auch signifikant gewesen. Wenn die Regression nur 1 X-Variable hätte, wären die p-Werte aus der Regression und der Korrelation identisch. Wenn die Beziehung trotz der signifikanten Regression nicht linear wäre, wäre sie trotz der signifikanten Korrelation immer noch nicht linear. Eine signifikante Korrelation ist somit kein Beweis dafür, dass die Beziehung linear ist.
Gung - Reinstate Monica
1
r=1r=1r1
1
Dies mag übermäßig subtil oder sogar pingelig klingen, aber (a) ich stimme zu, dass Korrelation ein Weg ist, um die Linearität einer bivariaten Beziehung zu messen - das ist schließlich ein mathematischer Satz -, aber (b) als allgemeiner Satz bezweifle ich das Es könnte als mehr als eine äußerst grobe Methode zur Beurteilung der Nichtlinearität ausgelegt werden. Hinweise auf Nichtlinearität können in einem Datensatz mit hoher absoluter Stichprobenkorrelation auffällig sein und in einem Datensatz mit geringer absoluter Korrelation vollständig fehlen. (cc @gung)
whuber