Wie ist die Beziehung zwischen und in der folgenden Darstellung? Meiner Ansicht nach gibt es eine negative lineare Beziehung. Da wir jedoch viele Ausreißer haben, ist die Beziehung sehr schwach. Habe ich recht? Ich möchte lernen, wie wir Streudiagramme erklären können.X
38
Antworten:
Die Frage befasst sich mit mehreren Konzepten: Wie werden Daten ausgewertet, die nur in Form eines Streudiagramms angegeben sind, wie werden Streudiagramme zusammengefasst und ob (und inwieweit) eine Beziehung linear aussieht. Lass sie uns in Ordnung bringen.
Grafische Daten auswerten
Verwenden Sie Prinzipien der explorativen Datenanalyse (EDA). Diese (zumindest ursprünglich, als sie für die Verwendung mit Bleistift und Papier entwickelt wurden) betonen einfache, leicht zu berechnende und robuste Zusammenfassungen von Daten. Eine der einfachsten Arten von Zusammenfassungen basiert auf Positionen innerhalb einer Reihe von Zahlen, beispielsweise dem Mittelwert, der einen "typischen" Wert beschreibt. Middles lassen sich anhand von Grafiken leicht und zuverlässig abschätzen.
Streudiagramme weisen Paare von Zahlen auf. Das erste von jedem Paar (wie auf der horizontalen Achse aufgetragen) gibt eine Reihe von einzelnen Zahlen an, die wir separat zusammenfassen könnten.
In diesem speziellen Streudiagramm scheinen die y-Werte in zwei fast vollständig getrennten Gruppen zu liegen : die Werte über oben und die Werte unter unten. (Dieser Eindruck wird durch das Zeichnen eines Histogramms der y-Werte bestätigt, das scharf bimodal ist, aber das wäre zu diesem Zeitpunkt eine Menge Arbeit.) Ich lade Skeptiker ein, auf das Streudiagramm zu blinzeln. Wenn ich die Punkte im Streudiagramm mit einem großen Radius und einer gammakorrigierten Gaußschen Unschärfe (dh einem schnellen Standardbildverarbeitungsergebnis) verwende, sehe ich Folgendes:6060 60
Die beiden Gruppen - obere und untere - sind ziemlich offensichtlich. (Die obere Gruppe ist viel leichter als die untere, weil sie viel weniger Punkte enthält.)
Fassen wir die Gruppen der y-Werte entsprechend getrennt zusammen. Dazu zeichne ich horizontale Linien an den Medianen der beiden Gruppen. Um den Eindruck der Daten hervorzuheben und zu zeigen, dass wir keine Berechnungen durchführen, habe ich (a) alle Verzierungen wie Achsen und Gitternetzlinien entfernt und (b) die Punkte unscharf gemacht. Wenig Information über die Muster in den Daten geht verloren, indem auf die Grafik "geschielt" wird:
Ebenso habe ich versucht, die Mediane der x-Werte mit vertikalen Liniensegmenten zu markieren. In der oberen Gruppe (rote Linien) können Sie durch Zählen der Blobs überprüfen, ob diese Linien die Gruppe tatsächlich horizontal und vertikal in zwei gleiche Hälften teilen. In der unteren Gruppe (blaue Linien) habe ich die Positionen nur visuell geschätzt, ohne tatsächlich zu zählen.
Beurteilung von Beziehungen: Regression
Die Schnittpunkte sind die Zentren der beiden Gruppen. Eine hervorragende Zusammenfassung der Beziehung zwischen den x- und y-Werten wäre die Angabe dieser zentralen Positionen. Man möchte diese Zusammenfassung dann durch eine Beschreibung der Verteilung der Daten in jeder Gruppe - links und rechts, oben und unten - um ihre Zentren ergänzen. Der Kürze halber werde ich das hier nicht tun, aber beachten Sie, dass die Längen der Liniensegmente, die ich gezeichnet habe, (ungefähr) die Gesamtspreads jeder Gruppe widerspiegeln.
Schließlich habe ich eine (gestrichelte) Linie gezogen, die die beiden Zentren verbindet. Dies ist eine vernünftige Regressionslinie. Ist es eine gute Beschreibung der Daten? Mit Sicherheit nicht: Sehen Sie, wie weit die Daten in der Nähe dieser Linie verteilt sind. Ist es überhaupt ein Beweis für Linearität? Das ist kaum relevant, weil die lineare Beschreibung so schlecht ist. Da dies jedoch die vor uns liegende Frage ist, sollten wir uns damit befassen.
Bewertung der Linearität
Eine Beziehung ist in statistischer Hinsicht linear, wenn entweder die y-Werte in einer ausgeglichenen zufälligen Weise um eine Linie herum variieren oder die x-Werte in einer ausgeglichenen zufälligen Weise um eine Linie herum variieren (oder beides).
Ersteres scheint hier nicht der Fall zu sein: Da die y-Werte in zwei Gruppen zu fallen scheinen, wird ihre Variation niemals im Sinne einer ungefähren symmetrischen Verteilung über oder unter der Linie ausgeglichen aussehen . (Das schließt sofort die Möglichkeit aus, die Daten in ein lineares Regressionspaket abzulegen und eine Anpassung der kleinsten Quadrate von y gegen x durchzuführen: Die Antworten wären nicht relevant.)
Was ist mit Variation in x? Das ist plausibler: In jeder Höhe des Diagramms ist die horizontale Streuung der Punkte um die gepunktete Linie ziemlich ausgeglichen. Die Streuung in dieser Streuung scheint bei niedrigeren Höhen (niedrige y-Werte) etwas größer zu sein, aber vielleicht liegt das daran, dass dort viel mehr Punkte vorhanden sind. (Je mehr zufällige Daten Sie haben, desto weiter auseinander liegen die Extremwerte.)
Außerdem gibt es beim Scannen von oben nach unten keine Stellen, an denen die horizontale Streuung um die Regressionslinie stark aus dem Gleichgewicht gerät: Dies wäre ein Beweis für die Nichtlinearität. (Naja, vielleicht um y = 50 oder so gibt es zu viele große x-Werte. Dieser subtile Effekt könnte als weiterer Beweis für die Aufteilung der Daten in zwei Gruppen um den y = 60-Wert dienen.)
Schlussfolgerungen
Wir haben das gesehen
Es ist sinnvoll, x als lineare Funktion von y zuzüglich einiger "netter" Zufallsvariationen zu betrachten.
Es ist nicht sinnvoll, y als lineare Funktion von x plus zufälliger Variation zu betrachten.
Eine Regressionslinie kann geschätzt werden, indem die Daten in eine Gruppe von hohen y-Werten und eine Gruppe von niedrigen y-Werten aufgeteilt werden, die Zentren beider Gruppen unter Verwendung von Medianen ermittelt und diese Zentren verbunden werden.
Die resultierende Linie weist eine Abwärtsneigung auf, was auf eine negative lineare Beziehung hinweist .
Es gibt keine starken Abweichungen von der Linearität.
Da jedoch die Streuungen der x-Werte um die Linie immer noch groß sind (im Vergleich zu der anfänglichen Gesamtstreuung der x-Werte), müssten wir diese negative lineare Beziehung als "sehr schwach" charakterisieren.
Es kann sinnvoller sein, die Daten so zu beschreiben, dass sie zwei ovale Wolken bilden (eine für y über 60 und eine andere für niedrigere Werte von y). Innerhalb jeder Wolke gibt es wenig erkennbare Beziehung zwischen x und y. Die Zentren der Wolken liegen in der Nähe von (0,29, 90) und (0,38, 30). Die Wolken haben vergleichbare Ausbreitungen, aber die obere Wolke hat weit weniger Daten als die untere (vielleicht 20% so viel).
Zwei dieser Schlussfolgerungen bestätigen diejenigen, die in der Frage selbst gemacht wurden, dass es eine schwache negative Beziehung gibt. Die anderen ergänzen und unterstützen diese Schlussfolgerungen.
Eine Schlussfolgerung, die in der Frage gezogen wurde und nicht zu halten scheint, ist die Behauptung, dass es "Ausreißer" gibt. Bei einer genaueren Untersuchung (wie unten skizziert) werden keine einzelnen Punkte oder sogar kleine Gruppen von Punkten aufgedeckt, die als außerhalb des Rahmens liegend betrachtet werden könnten. Nach einer ausreichend langen Analyse kann die Aufmerksamkeit auf die beiden Punkte in der Nähe der rechten Mitte oder den einen Punkt in der linken unteren Ecke gelenkt werden, aber selbst diese werden die Einschätzung der Daten nicht wesentlich verändern, unabhängig davon, ob sie berücksichtigt werden oder nicht außerhalb.
Weitere Anweisungen
Man könnte noch viel mehr sagen. Die nächsten Schritte wären die Beurteilung der Ausbreitung dieser Wolken. Die Beziehungen zwischen x und y in jeder der beiden Wolken können mithilfe der hier gezeigten Techniken separat bewertet werden. Die leichte Asymmetrie der unteren Wolke (mehr Daten scheinen bei den kleinsten y-Werten zu erscheinen) könnte ausgewertet und sogar angepasst werden, indem die y-Werte erneut ausgedrückt werden (eine Quadratwurzel könnte gut funktionieren). In diesem Stadium wäre es sinnvoll, nach abgelegenen Daten zu suchen, da die Beschreibung an dieser Stelle Informationen zu typischen Datenwerten sowie deren Spreads enthalten würde. Ausreißer wären (per definitionem) zu weit von der Mitte entfernt, um sie mit dem beobachteten Ausmaß der Ausbreitung zu erklären.
Keine dieser Arbeiten - die sehr quantitativ sind - erfordert viel mehr als das Auffinden von Gruppen von Daten und einige einfache Berechnungen damit. Sie können daher schnell und genau durchgeführt werden, selbst wenn die Daten nur in grafischer Form vorliegen. Jedes hier gemeldete Ergebnis - einschließlich der quantitativen Werte - konnte mit einem Anzeigesystem (wie Hardcopy und Bleistift :-)) innerhalb weniger Sekunden leicht gefunden werden.
quelle
Lassen Sie uns etwas Spaß haben!
Zunächst einmal, ich kratzte die Daten aus Ihrem Diagramm.
Die Koeffizientenschätzungen waren:
Ich würde bemerken, dass, während der Redoubtable Whuber behauptet, dass es keine starken linearen Beziehungen gibt, die Abweichung von der Linie die durch den Scharnierterm impliziert wird, in derselben Größenordnung liegt wie die Steigung von (dh 37.7), also I Ich würde respektvoll ablehnen, dass wir keine starke nichtlineare Beziehung sehen (dh Ja, es gibt keine starken Beziehungen, aber der nichtlineare Ausdruck ist ungefähr so stark wie der lineare).XY=50.9−37.7X X
InterpretationY Y X R2 Y N=170 X>0.5 Y in diesem Bereich.
(Ich gehe davon aus, dass Sie nur an als abhängiger Variable interessiert sind.) Die Werte von werden von sehr schwach vorhergesagt (mit einem Adjusted- = 0,03). Die Assoziation ist annähernd linear mit einer leichten Abnahme der Steigung bei etwa 0,46. Die Residuen sind nach rechts etwas verzerrt, wahrscheinlich, weil die untere Schranke für die Werte von scharf ist . Bei der Stichprobengröße bin ich geneigt, Normalitätsverstöße zu tolerieren . Weitere Beobachtungen für Werte von würden helfen, festzustellen, ob die Änderung der Steigung real ist oder ein Artefakt einer verringerten Varianz vonY X R 2 Y N = 170 X > 0,5 Y
Aktualisierung mit dem -Diagramm:ln(Y)
(Die rote Linie ist einfach eine lineare Regression von ln (Y) auf X.)
In Kommentaren schrieb Russ Lenth: "Ich frage mich nur, ob dies hält, wenn Sie gegen glätten . Die Verteilung von ist falsch." Dies ist ein guter Vorschlag, da die Transformation gegenüber auch eine etwas bessere Anpassung ergibt als eine Linie zwischen und mit Residuen, die symmetrischer verteilt sind. Sowohl sein Vorschlag als auch mein lineares Scharnier von bevorzugen jedoch eine Beziehung zwischen (nicht transformiertem) und , die nicht durch eine gerade Linie beschrieben wird.logY X Y logY X Y X log(Y) X Y X
quelle
Hier ist meine
2 ¢1,5 ¢. Für mich ist das auffälligste Merkmal, dass die Daten abrupt anhalten und sich am unteren Ende des Bereichs von Y "zusammenballen". Ich sehe die beiden (potenziellen) "Cluster" und die allgemeine negative Assoziation, aber die hervorstechendsten Merkmale sind die (potenzieller) Bodeneffekt und die Tatsache, dass sich der oberste Cluster mit niedriger Dichte nur über einen Teil des Bereichs von X erstreckt.Da die "Cluster" vage bivariat normal sind, kann es interessant sein, ein parametrisches normales Mischungsmodell zu versuchen. Unter Verwendung der Daten von @Alexis finde ich, dass drei Cluster den BIC optimieren. Der Bodeneffekt mit hoher Dichte wird als dritter Cluster ausgewählt. Der Code folgt:
Was sollen wir daraus schließen? Ich denke nicht, dass dies
Mclust
nur eine falsche Erkennung menschlicher Muster ist. (Während meine Lektüre des Streudiagramms durchaus sein mag.) Auf der anderen Seite steht außer Frage, dass dies post-hoc ist . Ich sah, was ich für ein interessantes Muster hielt, und entschied mich, es zu überprüfen. Der Algorithmus hat etwas gefunden, aber dann habe ich nur überprüft, was ich dachte, dass es dort sein könnte, sodass mein Daumen definitiv auf der Skala liegt. Manchmal ist es möglich, eine Strategie zu entwickeln, um dem entgegenzuwirken (siehe @ whubers ausgezeichnete Antwort hier ), aber ich habe keine Ahnung, wie man in solchen Fällen vorgehen soll . Infolgedessen nehme ich diese Ergebnisse mit viel Salz (ich habe so etwas so oft gemacht, dass jemand einen ganzen Shaker vermisst)). Es gibt mir einiges an Material, über das ich nachdenken und mit meinem Kunden diskutieren kann, wenn wir uns das nächste Mal treffen. Was sind diese Daten? Ergibt es einen Sinn, dass es einen Bodeneffekt geben könnte? Wäre es sinnvoll, dass es verschiedene Gruppen geben könnte? Wie aussagekräftig / überraschend / interessant / wichtig wäre es, wenn diese real wären? Existieren unabhängige Daten / könnten wir sie bequem dazu bringen, diese Möglichkeiten ehrlich zu testen? Etc.quelle
Lassen Sie mich beschreiben, was ich sehe, sobald ich es anschaue:
Wenn wir an der bedingten Verteilung von interessiert sind (was häufig der Fall ist, wenn wir als IV und als DV sehen), dann erscheint für die bedingte Verteilung von bimodal mit einer oberen Gruppe ( zwischen ungefähr 70 und 125, mit einem Mittelwert von etwas unter 100) und einer niedrigeren Gruppe (zwischen 0 und ungefähr 70, mit einem Mittelwert von ungefähr 30 oder so). Innerhalb jeder Modalgruppe ist die Beziehung zu nahezu flach. (Siehe rote und blaue Linien unten, die ungefähr dort gezeichnet sind, wo ich eine ungefähre Ortsempfindung habe)y x y x≤0.5 Y|x x
Wenn wir uns dann ansehen, wo diese beiden Gruppen in mehr oder weniger dicht sind , können wir mehr sagen:X
Für verschwindet die obere Gruppe vollständig, wodurch der Gesamtmittelwert von sinkt, und unter etwa 0,2 ist die untere Gruppe viel weniger dicht als darüber, wodurch der Gesamtdurchschnitt höher wird.x>0.5 x
Zwischen diesen beiden Effekten entsteht eine scheinbar negative (aber nichtlineare) Beziehung zwischen den beiden, da gegen abzunehmen scheint, jedoch mit einem breiten, meist flachen Bereich in der Mitte. (Siehe lila gestrichelte Linie)E(Y|X=x) x
Ohne Zweifel wäre es wichtig zu wissen, was und sind, denn dann könnte klarer sein, warum die bedingte Verteilung für über einen Großteil ihres Bereichs bimodal sein könnte (in der Tat könnte sogar klar werden, dass es tatsächlich zwei Gruppen gibt, deren Verteilungen in induzieren die scheinbar abnehmende Beziehung in ).Y X Y X Y|x
Das, was ich gesehen habe, beruhte auf einer reinen "by-eye" Inspektion. Mit ein bisschen Herumspielen in einem einfachen Bildbearbeitungsprogramm (wie dem, mit dem ich die Linien gezogen habe) könnten wir beginnen, genauere Zahlen zu finden. Wenn wir die Daten digitalisieren (was mit anständigen Tools ziemlich einfach ist, wenn auch manchmal etwas mühsam, sie zu korrigieren), können wir genauere Analysen dieser Art von Impressionen durchführen.
Diese Art der explorativen Analyse kann zu einigen wichtigen Fragen führen (manchmal zu Fragen, die die Person überraschen, die über die Daten verfügt, aber nur einen Plot gezeigt hat), aber wir müssen etwas Sorgfalt walten lassen, inwieweit unsere Modelle bei solchen Inspektionen ausgewählt werden - wenn Wir wenden Modelle an, die auf der Grundlage des Erscheinungsbilds eines Diagramms ausgewählt wurden, und schätzen diese Modelle dann anhand derselben Daten. Wir werden tendenziell auf dieselben Probleme stoßen, wenn wir eine formalere Modellauswahl und Schätzung anhand derselben Daten verwenden. [Dies soll die Bedeutung der explorativen Analyse überhaupt nicht leugnen - wir müssen nur auf die Konsequenzen achten, die sich daraus ergeben, unabhängig davon, wie wir vorgehen. ]
Antwort auf Russ 'Kommentare:
[spätere Bearbeitung: Zur Klarstellung: Ich stimme im Großen und Ganzen Russ 'Kritik als allgemeine Vorsichtsmaßnahme zu, und es gibt mit Sicherheit eine Möglichkeit, die ich mehr gesehen habe, als wirklich da ist. Ich habe vor, noch einmal darauf zurückzugreifen und diese in einen ausführlicheren Kommentar zu falschen Mustern umzuwandeln, die wir normalerweise anhand von Augenmerkmalen identifizieren, und darüber, wie wir das Schlimmste vermeiden können. Ich glaube, ich kann auch eine Begründung hinzufügen, warum ich denke, dass es in diesem speziellen Fall wahrscheinlich nicht nur falsch ist (z. B. über ein Regressogramm oder einen Kernel glatter Ordnung), obwohl natürlich keine weiteren Daten zum Testen vorhanden sind, sondern nur So weit kann das gehen. Wenn zum Beispiel unsere Stichprobe nicht repräsentativ ist, bringt uns auch das Resampling nur so weit.]
Ich stimme vollkommen zu, dass wir die Tendenz haben, falsche Muster zu erkennen. Es ist ein Punkt, den ich häufig hier und anderswo mache.
Ich schlage zum Beispiel vor, bei der Betrachtung von Residuendiagrammen oder QQ-Diagrammen viele Diagramme zu erstellen, in denen die Situation bekannt ist (sowohl wie es sein sollte als auch wo Annahmen nicht gelten), um eine klare Vorstellung davon zu bekommen, wie viel Muster sein sollte ignoriert.
Hier ist ein Beispiel, in dem ein QQ-Plot unter 24 anderen platziert wird (die die Annahmen erfüllen), damit wir sehen, wie ungewöhnlich der Plot ist. Diese Art von Übung ist wichtig, da wir uns nicht selbst täuschen müssen, indem wir jedes kleine Wackeln interpretieren, bei dem es sich größtenteils um einfaches Rauschen handelt.
Ich weise oft darauf hin, dass wir uns auf einen Eindruck verlassen können, der nur durch Rauschen erzeugt wird, wenn Sie einen Eindruck ändern können, indem Sie einige Punkte abdecken.
[Allerdings ist es schwieriger zu behaupten, dass es nicht da ist, wenn es aus vielen, sondern aus wenigen Gesichtspunkten hervorgeht.]
Die Darstellungen in Whubers Antwort stützen meinen Eindruck, die Gaußsche Unschärfekurve scheint die gleiche Tendenz zur Bimodalität in .Y
Wenn wir nicht mehr zu überprüfende Daten haben, können wir zumindest prüfen, ob die Impression das Resampling überlebt (die bivariate Verteilung wird gebootet und überprüft, ob sie fast immer noch vorhanden ist) oder andere Manipulationen, bei denen die Impression nicht sichtbar sein sollte wenn es einfaches Rauschen ist.
1) Hier ist eine Möglichkeit zu sehen, ob die scheinbare Bimodalität mehr als nur Schiefe plus Rauschen ist - wird sie in einer Schätzung der Kerneldichte angezeigt? Ist es immer noch sichtbar, wenn wir Kerneldichteschätzungen unter einer Vielzahl von Transformationen zeichnen? Hier transformiere ich es in Richtung größerer Symmetrie bei 85% der Standardbandbreite (da wir versuchen, einen relativ kleinen Modus zu identifizieren und die Standardbandbreite nicht für diese Aufgabe optimiert ist):
Die Darstellungen lauten , und . Die vertikalen Linien befinden sich bei , und . Die Bimodalität ist vermindert, aber immer noch gut sichtbar. Da es im ursprünglichen KDE sehr klar ist, scheint es zu bestätigen, dass es da ist - und der zweite und dritte Plot legen nahe, dass es zumindest ein wenig robust gegenüber Transformationen ist.Y Y−−√ log(Y) 68 68−−√ log(68)
2) Hier ist eine andere grundlegende Methode, um zu sehen, ob es mehr als nur "Lärm" ist:
Schritt 1: Clustering für Y durchführen
Schritt 2: Split in zwei Gruppen auf , und Cluster die beiden Gruppen getrennt, und sehen , ob es recht ähnlich ist. Wenn nichts los ist, sollte nicht erwartet werden, dass sich die beiden Hälften so sehr teilen.X
Die Punkte mit Punkten wurden anders gruppiert als die Punkte in einem Satz im vorherigen Diagramm. Ich mache später noch etwas mehr, aber es scheint, als gäbe es in der Nähe dieser Position tatsächlich einen horizontalen "Split".
Ich werde ein Regressionsprogramm oder einen Nadaraya-Watson-Schätzer ausprobieren (beide sind lokale Schätzungen der Regressionsfunktion ). Ich habe auch noch nicht generiert, aber wir werden sehen, wie sie gehen. Ich würde wahrscheinlich die Enden ausschließen, an denen es nur wenige Daten gibt.E(Y|x)
3) Bearbeiten: Hier ist das Regressionsprogramm für Fächer mit einer Breite von 0,1 (mit Ausnahme der äußersten Enden, wie ich zuvor vorgeschlagen habe):
Dies stimmt völlig mit dem ursprünglichen Eindruck überein, den ich von der Handlung hatte. Es beweist nicht, dass meine Argumentation richtig war, aber meine Schlussfolgerungen kamen zu dem gleichen Ergebnis wie das Regressionsprogramm.
Wenn das, was ich in der Handlung gesehen habe - und die daraus resultierende Argumentation - falsch gewesen wäre, hätte ich es wahrscheinlich nicht geschafft, so zu unterscheiden.E(Y|x)
(Der nächste Versuch wäre ein Nadayara-Watson-Schätzer. Dann könnte ich sehen, wie es unter Resampling läuft, wenn ich Zeit habe.)
4) Später bearbeiten:
Nadarya-Watson, Gauß-Kernel, Bandbreite 0.15:
Auch dies steht überraschenderweise im Einklang mit meinem ersten Eindruck. Hier sind die NW-Schätzer basierend auf zehn Bootstrap-Resamples:
Das breite Muster ist vorhanden, obwohl einige der Resamples der Beschreibung auf der Grundlage der gesamten Daten nicht so deutlich folgen. Wir sehen, dass der Pegel auf der linken Seite weniger sicher ist als auf der rechten Seite - der Rauschpegel (teils aufgrund weniger Beobachtungen, teils aufgrund der großen Verbreitung) ist so, dass es weniger einfach ist, den Mittelwert auf der linken Seite als wirklich höher zu bezeichnen links als in der Mitte.
Mein Gesamteindruck ist, dass ich mich wahrscheinlich nicht bloß etwas vorgemacht habe, weil die verschiedenen Aspekte einer Vielzahl von Herausforderungen (Glätten, Transformation, Aufteilen in Untergruppen, Resampling), die sie eher verdecken würden, wenn sie nur Lärm wären, mäßig standhalten. Andererseits sind die Anzeichen dafür, dass die Auswirkungen, obwohl sie im Großen und Ganzen mit meinem anfänglichen Eindruck übereinstimmen, relativ schwach sind, und es kann zu viel sein, eine echte Änderung der Erwartung zu behaupten, die sich von der linken Seite in die Mitte bewegt.
quelle
Okay Leute, ich bin Alexis gefolgt und habe die Daten erfasst. Hier ist ein Plot von gegen .xlogy x
Und die Zusammenhänge:
Der Korrelationstest zeigt eine wahrscheinliche negative Abhängigkeit an. Ich bin von keiner Bimodalität überzeugt (aber auch nicht davon, dass sie nicht vorhanden ist).
[Ich habe ein Restdiagramm entfernt, das ich in einer früheren Version hatte, weil ich den Punkt übersehen habe, an dem @whuber versuchte, vorherzusagen .]X|Y
quelle
Russ Lenth fragte sich, wie der Graph aussehen würde, wenn die Y-Achse logarithmisch wäre. Alexis hat die Daten abgekratzt, sodass es einfach ist, sie mit einer Log-Achse zu zeichnen:
Auf einer logarithmischen Skala gibt es keinen Hinweis auf Bimodalität oder Trend. Ob eine logarithmische Skala sinnvoll ist oder nicht, hängt natürlich von den Einzelheiten der Daten ab. In ähnlicher Weise hängt es von den Details ab, ob es sinnvoll ist, zu glauben, dass die Daten Stichproben aus zwei Populationen darstellen, wie von whuber vorgeschlagen.
Nachtrag: Basierend auf den Kommentaren unten ist hier eine überarbeitete Version:
quelle
Sie haben recht, die Beziehung ist schwach, aber nicht null. Ich würde positiv raten. Aber raten Sie nicht, führen Sie einfach eine einfache lineare Regression (OLS-Regression) aus und finden Sie es heraus! Dort erhalten Sie eine Steigung von xxx, die Ihnen die Beziehung angibt. Und ja, es gibt Ausreißer, die die Ergebnisse beeinflussen könnten. Damit kann man fertig werden. Sie können die Cook-Distanz verwenden oder ein Hebel-Diagramm erstellen, um die Auswirkung der Ausreißer auf die Beziehung abzuschätzen.
Viel Glück
quelle
Sie haben Ihre Frage bereits anhand der Ausrichtung der X / Y-Datenpunkte und ihrer Streuung erläutert. Kurz gesagt, du hast recht.
Formal Orientierung kann als bezeichnet werden Korrelationszeichen und Dispersion als Varianz . Über diese beiden Links erhalten Sie weitere Informationen zur Interpretation der linearen Beziehung zwischen zwei Variablen.
quelle
Dies ist eine Hausarbeit. Die Antwort auf Ihre Frage ist also einfach. Wenn Sie eine lineare Regression von Y auf X ausführen, erhalten Sie ungefähr Folgendes:
Daher ist die t-Statistik für die X-Variable bei einer Konfidenz von 99% signifikant. Daher können Sie die Variablen als eine Art Beziehung deklarieren.
Ist es linear? Addiere eine Variable X2 = (X-mean (X)) ^ 2 und regressiere erneut.
Der Koeffizient bei X ist immer noch signifikant, bei X2 jedoch nicht. X2 steht für Nichtlinearität. Sie erklären also, dass die Beziehung linear zu sein scheint.
Das obige war für eine Hausarbeit.
Im wirklichen Leben sind die Dinge komplizierter. Stellen Sie sich vor, dies wären die Daten einer Klasse von Schülern. Y - Bankdrücken in Pfund, X - Zeit in Minuten, in denen man vor dem Bankdrücken den Atem anhält. Ich würde nach dem Geschlecht der Schüler fragen. Fügen Sie einfach zum Spaß eine weitere Variable hinzu, Z, und sagen wir, dass Z = 1 (Mädchen) für alle Y <60 und Z = 0 (Jungen), wenn Y> = 60. Führen Sie die Regression mit drei Variablen aus:
Was ist passiert?! Die "Beziehung" zwischen X und Y ist verschwunden! Oh, es scheint, dass die Beziehung aufgrund der verwirrenden Variablen , des Geschlechts, falsch war .
Was ist die Moral der Geschichte? Sie müssen wissen, welche Daten vorhanden sind, um die "Beziehung" zu "erklären" oder gar erst herzustellen. In diesem Fall werde ich in dem Moment, in dem mir mitgeteilt wird, dass die Daten zur körperlichen Aktivität der Schüler sofort nach ihrem Geschlecht fragen, und mich nicht einmal darum kümmern, die Daten zu analysieren, ohne die geschlechtsspezifische Variable zu erhalten.
Wenn Sie jedoch aufgefordert werden, die Streudiagramme zu "beschreiben", ist alles möglich. Korrelationen, lineare Anpassungen usw. Für Ihre Hausarbeit sollten die ersten beiden Schritte oben ausreichen: Betrachten Sie den Koeffizienten von X (Beziehung), dann X ^ 2 (Linearität). Stellen Sie sicher, dass Sie die X-Variable vom Mittelwert trennen (subtrahieren Sie den Mittelwert).
quelle