Wie ist die Beziehung zwischen

38

Wie ist die Beziehung zwischen und in der folgenden Darstellung? Meiner Ansicht nach gibt es eine negative lineare Beziehung. Da wir jedoch viele Ausreißer haben, ist die Beziehung sehr schwach. Habe ich recht? Ich möchte lernen, wie wir Streudiagramme erklären können.XYX

Bildbeschreibung hier eingeben

PSS
quelle
3
Was ist ? Was ist ? Welchen Prozess haben Sie Ausreißer produziert? Was lässt Sie denken, dass es sich nicht um echte Messungen handelt? Was ist die Theorie? YXY
Abaumann
4
Vielen Dank für Ihren Kommentar. Ich sehe diese Handlung nur in einem Buch. Y ist abhängige Variable und X ist unabhängige Variable. Es gibt keine Theorie. es zeichnete ein Streudiagramm, um die Beziehung von Y bei gegebenem x zu zeigen. Und es gibt eine Frage in dem Buch, die fragt, ob es eine Beziehung gibt oder nicht, linear oder nichtlinear? Stark oder schwach?
PSS
7
Dies ist eine Übung in der Tasseographie . Dies ist bei Tageshändlern sehr beliebt und wird als technische Analyse bezeichnet . Ohne etwas über die Art der Daten zu wissen, ist es im Grunde genommen eine fruchtlose Übung
Aksakal,
1
@chl du rockst für eine Spende an ein Kopfgeld an whuber =)
Cam.Davidson.Pilon
3
@Aksakal Statistische Sprache versteht "Beziehung" normalerweise eher wörtlich: als Beschreibung von Mengen von Tupeln von Zahlen. Beispielsweise beschreibt ein Korrelationskoeffizient eine Beziehung. Es gibt keine Auswirkungen auf die Entstehung, die Natur oder die kausalen Zusammenhänge der zugrunde liegenden Variablen. Ich stimme Ihnen zu, dass "erklären" normalerweise in einem so tieferen Sinne verstanden wird, aber da Beziehungen in der Frage so stark betont werden, halte ich es für angebracht, die wörtliche Bedeutung von "erklären" nicht zu weit zu treiben. Die Vermutung, dass das Beschreiben von Streudiagrammen nur das Lesen von Teeblättern ist, geht meiner Meinung nach zu weit.
Whuber

Antworten:

50

Die Frage befasst sich mit mehreren Konzepten: Wie werden Daten ausgewertet, die nur in Form eines Streudiagramms angegeben sind, wie werden Streudiagramme zusammengefasst und ob (und inwieweit) eine Beziehung linear aussieht. Lass sie uns in Ordnung bringen.

Grafische Daten auswerten

Verwenden Sie Prinzipien der explorativen Datenanalyse (EDA). Diese (zumindest ursprünglich, als sie für die Verwendung mit Bleistift und Papier entwickelt wurden) betonen einfache, leicht zu berechnende und robuste Zusammenfassungen von Daten. Eine der einfachsten Arten von Zusammenfassungen basiert auf Positionen innerhalb einer Reihe von Zahlen, beispielsweise dem Mittelwert, der einen "typischen" Wert beschreibt. Middles lassen sich anhand von Grafiken leicht und zuverlässig abschätzen.

Streudiagramme weisen Paare von Zahlen auf. Das erste von jedem Paar (wie auf der horizontalen Achse aufgetragen) gibt eine Reihe von einzelnen Zahlen an, die wir separat zusammenfassen könnten.

In diesem speziellen Streudiagramm scheinen die y-Werte in zwei fast vollständig getrennten Gruppen zu liegen : die Werte über oben und die Werte unter unten. (Dieser Eindruck wird durch das Zeichnen eines Histogramms der y-Werte bestätigt, das scharf bimodal ist, aber das wäre zu diesem Zeitpunkt eine Menge Arbeit.) Ich lade Skeptiker ein, auf das Streudiagramm zu blinzeln. Wenn ich die Punkte im Streudiagramm mit einem großen Radius und einer gammakorrigierten Gaußschen Unschärfe (dh einem schnellen Standardbildverarbeitungsergebnis) verwende, sehe ich Folgendes:606060

Abbildung 0

Die beiden Gruppen - obere und untere - sind ziemlich offensichtlich. (Die obere Gruppe ist viel leichter als die untere, weil sie viel weniger Punkte enthält.)

Fassen wir die Gruppen der y-Werte entsprechend getrennt zusammen. Dazu zeichne ich horizontale Linien an den Medianen der beiden Gruppen. Um den Eindruck der Daten hervorzuheben und zu zeigen, dass wir keine Berechnungen durchführen, habe ich (a) alle Verzierungen wie Achsen und Gitternetzlinien entfernt und (b) die Punkte unscharf gemacht. Wenig Information über die Muster in den Daten geht verloren, indem auf die Grafik "geschielt" wird:

Zahl

Ebenso habe ich versucht, die Mediane der x-Werte mit vertikalen Liniensegmenten zu markieren. In der oberen Gruppe (rote Linien) können Sie durch Zählen der Blobs überprüfen, ob diese Linien die Gruppe tatsächlich horizontal und vertikal in zwei gleiche Hälften teilen. In der unteren Gruppe (blaue Linien) habe ich die Positionen nur visuell geschätzt, ohne tatsächlich zu zählen.

Beurteilung von Beziehungen: Regression

Die Schnittpunkte sind die Zentren der beiden Gruppen. Eine hervorragende Zusammenfassung der Beziehung zwischen den x- und y-Werten wäre die Angabe dieser zentralen Positionen. Man möchte diese Zusammenfassung dann durch eine Beschreibung der Verteilung der Daten in jeder Gruppe - links und rechts, oben und unten - um ihre Zentren ergänzen. Der Kürze halber werde ich das hier nicht tun, aber beachten Sie, dass die Längen der Liniensegmente, die ich gezeichnet habe, (ungefähr) die Gesamtspreads jeder Gruppe widerspiegeln.

Schließlich habe ich eine (gestrichelte) Linie gezogen, die die beiden Zentren verbindet. Dies ist eine vernünftige Regressionslinie. Ist es eine gute Beschreibung der Daten? Mit Sicherheit nicht: Sehen Sie, wie weit die Daten in der Nähe dieser Linie verteilt sind. Ist es überhaupt ein Beweis für Linearität? Das ist kaum relevant, weil die lineare Beschreibung so schlecht ist. Da dies jedoch die vor uns liegende Frage ist, sollten wir uns damit befassen.

Bewertung der Linearität

Eine Beziehung ist in statistischer Hinsicht linear, wenn entweder die y-Werte in einer ausgeglichenen zufälligen Weise um eine Linie herum variieren oder die x-Werte in einer ausgeglichenen zufälligen Weise um eine Linie herum variieren (oder beides).

Ersteres scheint hier nicht der Fall zu sein: Da die y-Werte in zwei Gruppen zu fallen scheinen, wird ihre Variation niemals im Sinne einer ungefähren symmetrischen Verteilung über oder unter der Linie ausgeglichen aussehen . (Das schließt sofort die Möglichkeit aus, die Daten in ein lineares Regressionspaket abzulegen und eine Anpassung der kleinsten Quadrate von y gegen x durchzuführen: Die Antworten wären nicht relevant.)

Was ist mit Variation in x? Das ist plausibler: In jeder Höhe des Diagramms ist die horizontale Streuung der Punkte um die gepunktete Linie ziemlich ausgeglichen. Die Streuung in dieser Streuung scheint bei niedrigeren Höhen (niedrige y-Werte) etwas größer zu sein, aber vielleicht liegt das daran, dass dort viel mehr Punkte vorhanden sind. (Je mehr zufällige Daten Sie haben, desto weiter auseinander liegen die Extremwerte.)

Außerdem gibt es beim Scannen von oben nach unten keine Stellen, an denen die horizontale Streuung um die Regressionslinie stark aus dem Gleichgewicht gerät: Dies wäre ein Beweis für die Nichtlinearität. (Naja, vielleicht um y = 50 oder so gibt es zu viele große x-Werte. Dieser subtile Effekt könnte als weiterer Beweis für die Aufteilung der Daten in zwei Gruppen um den y = 60-Wert dienen.)

Schlussfolgerungen

Wir haben das gesehen

  • Es ist sinnvoll, x als lineare Funktion von y zuzüglich einiger "netter" Zufallsvariationen zu betrachten.

  • Es ist nicht sinnvoll, y als lineare Funktion von x plus zufälliger Variation zu betrachten.

  • Eine Regressionslinie kann geschätzt werden, indem die Daten in eine Gruppe von hohen y-Werten und eine Gruppe von niedrigen y-Werten aufgeteilt werden, die Zentren beider Gruppen unter Verwendung von Medianen ermittelt und diese Zentren verbunden werden.

  • Die resultierende Linie weist eine Abwärtsneigung auf, was auf eine negative lineare Beziehung hinweist .

  • Es gibt keine starken Abweichungen von der Linearität.

  • Da jedoch die Streuungen der x-Werte um die Linie immer noch groß sind (im Vergleich zu der anfänglichen Gesamtstreuung der x-Werte), müssten wir diese negative lineare Beziehung als "sehr schwach" charakterisieren.

  • Es kann sinnvoller sein, die Daten so zu beschreiben, dass sie zwei ovale Wolken bilden (eine für y über 60 und eine andere für niedrigere Werte von y). Innerhalb jeder Wolke gibt es wenig erkennbare Beziehung zwischen x und y. Die Zentren der Wolken liegen in der Nähe von (0,29, 90) und (0,38, 30). Die Wolken haben vergleichbare Ausbreitungen, aber die obere Wolke hat weit weniger Daten als die untere (vielleicht 20% so viel).

Zwei dieser Schlussfolgerungen bestätigen diejenigen, die in der Frage selbst gemacht wurden, dass es eine schwache negative Beziehung gibt. Die anderen ergänzen und unterstützen diese Schlussfolgerungen.

Eine Schlussfolgerung, die in der Frage gezogen wurde und nicht zu halten scheint, ist die Behauptung, dass es "Ausreißer" gibt. Bei einer genaueren Untersuchung (wie unten skizziert) werden keine einzelnen Punkte oder sogar kleine Gruppen von Punkten aufgedeckt, die als außerhalb des Rahmens liegend betrachtet werden könnten. Nach einer ausreichend langen Analyse kann die Aufmerksamkeit auf die beiden Punkte in der Nähe der rechten Mitte oder den einen Punkt in der linken unteren Ecke gelenkt werden, aber selbst diese werden die Einschätzung der Daten nicht wesentlich verändern, unabhängig davon, ob sie berücksichtigt werden oder nicht außerhalb.


Weitere Anweisungen

Man könnte noch viel mehr sagen. Die nächsten Schritte wären die Beurteilung der Ausbreitung dieser Wolken. Die Beziehungen zwischen x und y in jeder der beiden Wolken können mithilfe der hier gezeigten Techniken separat bewertet werden. Die leichte Asymmetrie der unteren Wolke (mehr Daten scheinen bei den kleinsten y-Werten zu erscheinen) könnte ausgewertet und sogar angepasst werden, indem die y-Werte erneut ausgedrückt werden (eine Quadratwurzel könnte gut funktionieren). In diesem Stadium wäre es sinnvoll, nach abgelegenen Daten zu suchen, da die Beschreibung an dieser Stelle Informationen zu typischen Datenwerten sowie deren Spreads enthalten würde. Ausreißer wären (per definitionem) zu weit von der Mitte entfernt, um sie mit dem beobachteten Ausmaß der Ausbreitung zu erklären.

Keine dieser Arbeiten - die sehr quantitativ sind - erfordert viel mehr als das Auffinden von Gruppen von Daten und einige einfache Berechnungen damit. Sie können daher schnell und genau durchgeführt werden, selbst wenn die Daten nur in grafischer Form vorliegen. Jedes hier gemeldete Ergebnis - einschließlich der quantitativen Werte - konnte mit einem Anzeigesystem (wie Hardcopy und Bleistift :-)) innerhalb weniger Sekunden leicht gefunden werden.

whuber
quelle
4
Wow. Ich hätte diese beiden Gruppen und die daraus resultierende Linie nie gesehen. Und ich frage es.
Rvl
4
@Russ Es freut mich zu hören, dass jemand diese Erkundung in Frage stellt, da keine EDA einzigartig oder dispositiv ist. Ich habe ein weiteres Bild hinzugefügt, damit Sie sehen können, was ich sehe. Ich möchte Sie einladen, eine ebenso sparsame wie aussagekräftige Antwort zu verfassen.
Whuber
12
Als Menschen sind wir außerordentlich geneigt, Muster zu finden, auch solche, die es nicht gibt. Ich halte es für sehr plausibel, ein Streudiagramm wie das hier mit nur zwei unabhängigen Wohnmobilen zu erhalten, von denen eines schief liegt. Ich habe keinen Beweis dafür, und ich habe keine andere Analyse anzubieten, als eine, die besagt, dass es keine oder nur eine geringe Beziehung gibt. Ja, es ist möglich, dass Bimodalität vorliegt. Wenn der Prozess weiter beobachtet werden könnte, könnten wir sehen, was passiert. Ich denke nur, wir müssen vorsichtig sein und uns unserer Neigung bewusst sein, auf plausibel falsche Muster zu reagieren.
Rvl
4
@Russ Du bist richtig. Erfahrung ist erforderlich, um nicht zu viel in Muster zu lesen. Meiner Erfahrung nach ist es mit 150-200 Punkten schwierig, zufällig die starke Bimodalität zu erhalten, die ich in den y-Koordinaten gemessen habe. Solche Erfahrungen können heutzutage einfach und schnell durch Simulationen ergänzt werden: Wenn Sie glauben, ein Muster zu sehen, dann (1) charakterisieren Sie es quantitativ und (2) suchen Sie es in Zufallsstichproben, die nach einer einfacheren alternativen Hypothese erstellt werden. Wenn das Muster sehr häufig auftritt, können Sie Ihrem visuellen Kortex die Schuld geben, aber ansonsten haben Sie möglicherweise etwas gefunden.
Whuber
1
@Russ Danke. Das war nicht die von mir beschriebene Restkurve - die Rollen von x und y sind vertauscht. Es ist jedoch trotzdem informativ. Die Heteroskedastizität ist das Auffälligste: Sie scheint tatsächlich die Zwei-Cluster-Hypothese zu unterstützen (die die Heteroskedastizität verschwinden lassen würde). Wohlgemerkt, ich bin bei dieser Hypothese Agnostiker. Alles, was ich hier geschrieben habe, entspricht dem ursprünglichen Geist einer sorgfältigen und zuverlässigen Beschreibung der Daten. Jede einzelne Kurve als Beschreibung dieser Daten wird grob und möglicherweise unbefriedigend sein.
Whuber
31

Lassen Sie uns etwas Spaß haben!

Zunächst einmal, ich kratzte die Daten aus Ihrem Diagramm.

X=0.4X

Y=β0+βXX+βcmax(Xθ,0)+ε

Die Koeffizientenschätzungen waren:

Y=50.937.7X26.74436max(X0.46,0)

Ich würde bemerken, dass, während der Redoubtable Whuber behauptet, dass es keine starken linearen Beziehungen gibt, die Abweichung von der Linie die durch den Scharnierterm impliziert wird, in derselben Größenordnung liegt wie die Steigung von (dh 37.7), also I Ich würde respektvoll ablehnen, dass wir keine starke nichtlineare Beziehung sehen (dh Ja, es gibt keine starken Beziehungen, aber der nichtlineare Ausdruck ist ungefähr so ​​stark wie der lineare).XY=50.937.7XX

Spielzeit mit Daten

Interpretation
(Ich gehe davon aus, dass Sie nur an als abhängiger Variable interessiert sind.) Die Werte von werden von sehr schwach vorhergesagt (mit einem Adjusted- = 0,03). Die Assoziation ist annähernd linear mit einer leichten Abnahme der Steigung bei etwa 0,46. Die Residuen sind nach rechts etwas verzerrt, wahrscheinlich, weil die untere Schranke für die Werte von scharf ist . Bei der Stichprobengröße bin ich geneigt, Normalitätsverstöße zu tolerieren . Weitere Beobachtungen für Werte von würden helfen, festzustellen, ob die Änderung der Steigung real ist oder ein Artefakt einer verringerten Varianz vonY X R 2 Y N = 170 X > 0,5 YYYXR2YN=170X>0.5Y in diesem Bereich.

Aktualisierung mit dem -Diagramm:ln(Y)

(Die rote Linie ist einfach eine lineare Regression von ln (Y) auf X.)

Aktualisiert mit Grafik gemäß dem Vorschlag von Russ Lenth.

In Kommentaren schrieb Russ Lenth: "Ich frage mich nur, ob dies hält, wenn Sie gegen glätten . Die Verteilung von ist falsch." Dies ist ein guter Vorschlag, da die Transformation gegenüber auch eine etwas bessere Anpassung ergibt als eine Linie zwischen und mit Residuen, die symmetrischer verteilt sind. Sowohl sein Vorschlag als auch mein lineares Scharnier von bevorzugen jedoch eine Beziehung zwischen (nicht transformiertem) und , die nicht durch eine gerade Linie beschrieben wird.logYXYlogYXYXlog(Y)XYX

Alexis
quelle
1
Ich frage mich nur, ob dies hält, wenn Sie vs. glätten . Die Verteilung von ist nach rechts verzerrt, und ich denke, dass eine Transformation, die die Verteilung symmetrischer macht, nicht so aussieht wie das ikonische Null-Streudiagramm. logYXY
Rvl
1
@Russ Es ist klassisch, dass bimodale Verteilungen schief erscheinen und logarithmische Transformationen vorschlagen können. Aber die y-Verteilung hier ist in der Tat bimodal und ein Protokoll ist wahrscheinlich kein nützlicher Weg, um es erneut auszudrücken. Wenn die beiden Komponenten getrennt sind, ist die untere immer noch positiv verzerrt und eine Quadratwurzel ist ungefähr der richtige Betrag, um sie zu transformieren, um eine symmetrische Verteilung zu erhalten. Die Quadratwurzel hat keinen nennenswerten Einfluss auf die Symmetrie der oberen Gruppe, was darauf hinweist, dass die Wurzel eine gute Wahl sein kann. Dies behebt jedoch nicht die Bimodalität - und darin liegt das Problem bei jedem Glatt dieser Art.
Whuber
1
Alexis, in unseren Antworten sind wir beide schuldig, "stark" auf undefinierte Weise verwendet zu haben. Der Sinn, in dem ich "schwach" meinte, wurde in einigen meiner Formulierungen angedeutet, was darauf hindeuten sollte, dass die Steigung im Vergleich zur Streuung der y-Werte gering ist. Ich glaube nicht, dass Ihre Analyse diesbezüglich zu einem anderen Ergebnis führt. Ich empfand Vorsicht, da es unter der Annahme, dass das Mischungsmodell für y von Nutzen sein könnte, in der oberen Gruppe möglicherweise eine schwache positive Beziehung zwischen x und y und in der unteren Gruppe keine Beziehung gibt.
Whuber
3
Alexis, Tukeys EDA- Buch ist voll davon. Weitere Techniken (mit höherer Komplexität und mathematischer Begründung) finden Sie unter Hoaglin, Mosteller & Tukey, Grundlegendes zur robusten und explorativen Datenanalyse .
Whuber
2
@ Rivu Handbuch. Hat 10 oder 15 Minuten gedauert. Platzieren Sie jeden Punkt zuerst mit dem Mauszeiger und lokalisieren Sie ihn dann genau mit den Pfeiltasten.
Alexis
21

Hier ist meine 2 ¢ 1,5 ¢. Für mich ist das auffälligste Merkmal, dass die Daten abrupt anhalten und sich am unteren Ende des Bereichs von Y "zusammenballen". Ich sehe die beiden (potenziellen) "Cluster" und die allgemeine negative Assoziation, aber die hervorstechendsten Merkmale sind die (potenzieller) Bodeneffekt und die Tatsache, dass sich der oberste Cluster mit niedriger Dichte nur über einen Teil des Bereichs von X erstreckt.

Da die "Cluster" vage bivariat normal sind, kann es interessant sein, ein parametrisches normales Mischungsmodell zu versuchen. Unter Verwendung der Daten von @Alexis finde ich, dass drei Cluster den BIC optimieren. Der Bodeneffekt mit hoher Dichte wird als dritter Cluster ausgewählt. Der Code folgt:

library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")

mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
#   Gaussian finite mixture model fitted by EM algorithm 
# ----------------------------------------------------
#   
#   Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#   
#   log.likelihood   n df       BIC       ICL
#        -614.4713 170 14 -1300.844 -1338.715
# 
# Clustering table:
#  1  2  3 
# 72 72 26 

Bildbeschreibung hier eingeben

Was sollen wir daraus schließen? Ich denke nicht, dass dies Mclustnur eine falsche Erkennung menschlicher Muster ist. (Während meine Lektüre des Streudiagramms durchaus sein mag.) Auf der anderen Seite steht außer Frage, dass dies post-hoc ist . Ich sah, was ich für ein interessantes Muster hielt, und entschied mich, es zu überprüfen. Der Algorithmus hat etwas gefunden, aber dann habe ich nur überprüft, was ich dachte, dass es dort sein könnte, sodass mein Daumen definitiv auf der Skala liegt. Manchmal ist es möglich, eine Strategie zu entwickeln, um dem entgegenzuwirken (siehe @ whubers ausgezeichnete Antwort hier ), aber ich habe keine Ahnung, wie man in solchen Fällen vorgehen soll . Infolgedessen nehme ich diese Ergebnisse mit viel Salz (ich habe so etwas so oft gemacht, dass jemand einen ganzen Shaker vermisst)). Es gibt mir einiges an Material, über das ich nachdenken und mit meinem Kunden diskutieren kann, wenn wir uns das nächste Mal treffen. Was sind diese Daten? Ergibt es einen Sinn, dass es einen Bodeneffekt geben könnte? Wäre es sinnvoll, dass es verschiedene Gruppen geben könnte? Wie aussagekräftig / überraschend / interessant / wichtig wäre es, wenn diese real wären? Existieren unabhängige Daten / könnten wir sie bequem dazu bringen, diese Möglichkeiten ehrlich zu testen? Etc.

gung - Wiedereinsetzung von Monica
quelle
1
+1 Um darauf hinzuweisen, wie eine explorative Analyse natürlich zu interessanten Fragen führt . Ich wünschte, ich hätte diesen Punkt in meiner Antwort mehr betont. Obwohl ich denke , es wäre Dinge (an dieser Stelle) zu glauben drängt , dass es wirklich drei verschiedene Gruppen sind, präsentieren die Cluster - Ergebnisse immer noch eine gültige Weise zu sehen , dass es eine negative Beziehung ist , dass die Beziehung zwischen x und y und der Zusammenfassung. Ich frage mich, inwieweit automatisches Clustering ein allgemein nützliches Erkundungsinstrument sein könnte - vorausgesetzt, wir sind nicht versucht, zu viel in die Ergebnisse einzulesen.
Whuber
14

Lassen Sie mich beschreiben, was ich sehe, sobald ich es anschaue:

Wenn wir an der bedingten Verteilung von interessiert sind (was häufig der Fall ist, wenn wir als IV und als DV sehen), dann erscheint für die bedingte Verteilung von bimodal mit einer oberen Gruppe ( zwischen ungefähr 70 und 125, mit einem Mittelwert von etwas unter 100) und einer niedrigeren Gruppe (zwischen 0 und ungefähr 70, mit einem Mittelwert von ungefähr 30 oder so). Innerhalb jeder Modalgruppe ist die Beziehung zu nahezu flach. (Siehe rote und blaue Linien unten, die ungefähr dort gezeichnet sind, wo ich eine ungefähre Ortsempfindung habe)yxyx0.5Y|xx

Wenn wir uns dann ansehen, wo diese beiden Gruppen in mehr oder weniger dicht sind , können wir mehr sagen:X

Für verschwindet die obere Gruppe vollständig, wodurch der Gesamtmittelwert von sinkt, und unter etwa 0,2 ist die untere Gruppe viel weniger dicht als darüber, wodurch der Gesamtdurchschnitt höher wird.x>0.5x

Zwischen diesen beiden Effekten entsteht eine scheinbar negative (aber nichtlineare) Beziehung zwischen den beiden, da gegen abzunehmen scheint, jedoch mit einem breiten, meist flachen Bereich in der Mitte. (Siehe lila gestrichelte Linie)E(Y|X=x)x

Bildbeschreibung hier eingeben

Ohne Zweifel wäre es wichtig zu wissen, was und sind, denn dann könnte klarer sein, warum die bedingte Verteilung für über einen Großteil ihres Bereichs bimodal sein könnte (in der Tat könnte sogar klar werden, dass es tatsächlich zwei Gruppen gibt, deren Verteilungen in induzieren die scheinbar abnehmende Beziehung in ).YXYXY|x

Das, was ich gesehen habe, beruhte auf einer reinen "by-eye" Inspektion. Mit ein bisschen Herumspielen in einem einfachen Bildbearbeitungsprogramm (wie dem, mit dem ich die Linien gezogen habe) könnten wir beginnen, genauere Zahlen zu finden. Wenn wir die Daten digitalisieren (was mit anständigen Tools ziemlich einfach ist, wenn auch manchmal etwas mühsam, sie zu korrigieren), können wir genauere Analysen dieser Art von Impressionen durchführen.

Diese Art der explorativen Analyse kann zu einigen wichtigen Fragen führen (manchmal zu Fragen, die die Person überraschen, die über die Daten verfügt, aber nur einen Plot gezeigt hat), aber wir müssen etwas Sorgfalt walten lassen, inwieweit unsere Modelle bei solchen Inspektionen ausgewählt werden - wenn Wir wenden Modelle an, die auf der Grundlage des Erscheinungsbilds eines Diagramms ausgewählt wurden, und schätzen diese Modelle dann anhand derselben Daten. Wir werden tendenziell auf dieselben Probleme stoßen, wenn wir eine formalere Modellauswahl und Schätzung anhand derselben Daten verwenden. [Dies soll die Bedeutung der explorativen Analyse überhaupt nicht leugnen - wir müssen nur auf die Konsequenzen achten, die sich daraus ergeben, unabhängig davon, wie wir vorgehen. ]


Antwort auf Russ 'Kommentare:

[spätere Bearbeitung: Zur Klarstellung: Ich stimme im Großen und Ganzen Russ 'Kritik als allgemeine Vorsichtsmaßnahme zu, und es gibt mit Sicherheit eine Möglichkeit, die ich mehr gesehen habe, als wirklich da ist. Ich habe vor, noch einmal darauf zurückzugreifen und diese in einen ausführlicheren Kommentar zu falschen Mustern umzuwandeln, die wir normalerweise anhand von Augenmerkmalen identifizieren, und darüber, wie wir das Schlimmste vermeiden können. Ich glaube, ich kann auch eine Begründung hinzufügen, warum ich denke, dass es in diesem speziellen Fall wahrscheinlich nicht nur falsch ist (z. B. über ein Regressogramm oder einen Kernel glatter Ordnung), obwohl natürlich keine weiteren Daten zum Testen vorhanden sind, sondern nur So weit kann das gehen. Wenn zum Beispiel unsere Stichprobe nicht repräsentativ ist, bringt uns auch das Resampling nur so weit.]

Ich stimme vollkommen zu, dass wir die Tendenz haben, falsche Muster zu erkennen. Es ist ein Punkt, den ich häufig hier und anderswo mache.

Ich schlage zum Beispiel vor, bei der Betrachtung von Residuendiagrammen oder QQ-Diagrammen viele Diagramme zu erstellen, in denen die Situation bekannt ist (sowohl wie es sein sollte als auch wo Annahmen nicht gelten), um eine klare Vorstellung davon zu bekommen, wie viel Muster sein sollte ignoriert.

Hier ist ein Beispiel, in dem ein QQ-Plot unter 24 anderen platziert wird (die die Annahmen erfüllen), damit wir sehen, wie ungewöhnlich der Plot ist. Diese Art von Übung ist wichtig, da wir uns nicht selbst täuschen müssen, indem wir jedes kleine Wackeln interpretieren, bei dem es sich größtenteils um einfaches Rauschen handelt.

Ich weise oft darauf hin, dass wir uns auf einen Eindruck verlassen können, der nur durch Rauschen erzeugt wird, wenn Sie einen Eindruck ändern können, indem Sie einige Punkte abdecken.

[Allerdings ist es schwieriger zu behaupten, dass es nicht da ist, wenn es aus vielen, sondern aus wenigen Gesichtspunkten hervorgeht.]

Die Darstellungen in Whubers Antwort stützen meinen Eindruck, die Gaußsche Unschärfekurve scheint die gleiche Tendenz zur Bimodalität in .Y

Wenn wir nicht mehr zu überprüfende Daten haben, können wir zumindest prüfen, ob die Impression das Resampling überlebt (die bivariate Verteilung wird gebootet und überprüft, ob sie fast immer noch vorhanden ist) oder andere Manipulationen, bei denen die Impression nicht sichtbar sein sollte wenn es einfaches Rauschen ist.

1) Hier ist eine Möglichkeit zu sehen, ob die scheinbare Bimodalität mehr als nur Schiefe plus Rauschen ist - wird sie in einer Schätzung der Kerneldichte angezeigt? Ist es immer noch sichtbar, wenn wir Kerneldichteschätzungen unter einer Vielzahl von Transformationen zeichnen? Hier transformiere ich es in Richtung größerer Symmetrie bei 85% der Standardbandbreite (da wir versuchen, einen relativ kleinen Modus zu identifizieren und die Standardbandbreite nicht für diese Aufgabe optimiert ist):

Bildbeschreibung hier eingeben

Die Darstellungen lauten , und . Die vertikalen Linien befinden sich bei , und . Die Bimodalität ist vermindert, aber immer noch gut sichtbar. Da es im ursprünglichen KDE sehr klar ist, scheint es zu bestätigen, dass es da ist - und der zweite und dritte Plot legen nahe, dass es zumindest ein wenig robust gegenüber Transformationen ist.YYlog(Y)6868log(68)

2) Hier ist eine andere grundlegende Methode, um zu sehen, ob es mehr als nur "Lärm" ist:

Schritt 1: Clustering für Y durchführen

Bildbeschreibung hier eingeben

Schritt 2: Split in zwei Gruppen auf , und Cluster die beiden Gruppen getrennt, und sehen , ob es recht ähnlich ist. Wenn nichts los ist, sollte nicht erwartet werden, dass sich die beiden Hälften so sehr teilen.X

Bildbeschreibung hier eingeben

Die Punkte mit Punkten wurden anders gruppiert als die Punkte in einem Satz im vorherigen Diagramm. Ich mache später noch etwas mehr, aber es scheint, als gäbe es in der Nähe dieser Position tatsächlich einen horizontalen "Split".

Ich werde ein Regressionsprogramm oder einen Nadaraya-Watson-Schätzer ausprobieren (beide sind lokale Schätzungen der Regressionsfunktion ). Ich habe auch noch nicht generiert, aber wir werden sehen, wie sie gehen. Ich würde wahrscheinlich die Enden ausschließen, an denen es nur wenige Daten gibt.E(Y|x)

3) Bearbeiten: Hier ist das Regressionsprogramm für Fächer mit einer Breite von 0,1 (mit Ausnahme der äußersten Enden, wie ich zuvor vorgeschlagen habe):

Bildbeschreibung hier eingeben

Dies stimmt völlig mit dem ursprünglichen Eindruck überein, den ich von der Handlung hatte. Es beweist nicht, dass meine Argumentation richtig war, aber meine Schlussfolgerungen kamen zu dem gleichen Ergebnis wie das Regressionsprogramm.

Wenn das, was ich in der Handlung gesehen habe - und die daraus resultierende Argumentation - falsch gewesen wäre, hätte ich es wahrscheinlich nicht geschafft, so zu unterscheiden.E(Y|x)

(Der nächste Versuch wäre ein Nadayara-Watson-Schätzer. Dann könnte ich sehen, wie es unter Resampling läuft, wenn ich Zeit habe.)

4) Später bearbeiten:

Nadarya-Watson, Gauß-Kernel, Bandbreite 0.15:

Bildbeschreibung hier eingeben

Auch dies steht überraschenderweise im Einklang mit meinem ersten Eindruck. Hier sind die NW-Schätzer basierend auf zehn Bootstrap-Resamples:

Bildbeschreibung hier eingeben

Das breite Muster ist vorhanden, obwohl einige der Resamples der Beschreibung auf der Grundlage der gesamten Daten nicht so deutlich folgen. Wir sehen, dass der Pegel auf der linken Seite weniger sicher ist als auf der rechten Seite - der Rauschpegel (teils aufgrund weniger Beobachtungen, teils aufgrund der großen Verbreitung) ist so, dass es weniger einfach ist, den Mittelwert auf der linken Seite als wirklich höher zu bezeichnen links als in der Mitte.

Mein Gesamteindruck ist, dass ich mich wahrscheinlich nicht bloß etwas vorgemacht habe, weil die verschiedenen Aspekte einer Vielzahl von Herausforderungen (Glätten, Transformation, Aufteilen in Untergruppen, Resampling), die sie eher verdecken würden, wenn sie nur Lärm wären, mäßig standhalten. Andererseits sind die Anzeichen dafür, dass die Auswirkungen, obwohl sie im Großen und Ganzen mit meinem anfänglichen Eindruck übereinstimmen, relativ schwach sind, und es kann zu viel sein, eine echte Änderung der Erwartung zu behaupten, die sich von der linken Seite in die Mitte bewegt.

Glen_b
quelle
1
Ich habe eine Antwort hinterfragt, aber ich bin zuversichtlich, dass es
Dinge
1
Ich habe versucht, meine Abwahl rückgängig zu machen, aber ich schätze, ich kann nicht. Nur weil ich mit Ihrer Antwort nicht einverstanden bin, heißt das nicht, dass sie nicht zur Diskussion beiträgt. Ich bin mir nicht sicher, wie ich Abwärtsstimmen verwenden soll, und meine damit nichts Persönliches. P
rvl
4
@Russ mach dir keine Sorgen um die Ablehnung, es ist wirklich egal, abgesehen von der Tatsache, dass es signalisiert, dass es etwas gibt, das ich ansprechen sollte. Viel wichtiger, um herauszufinden, warum wir nicht einverstanden sind (soweit wir dies überhaupt tun), als sich über gefälschte Internet-Punkte Gedanken zu machen. Sie haben einen Einwand, der es wert ist, diskutiert zu werden, und ich würde gerne das Zehnfache dieser Ablehnung zahlen, um auch diese kurze Diskussion zu führen. Ich ermutige Sie, mich jedes Mal, wenn Sie anderer Meinung sind, abzulehnen, wenn Sie sagen, warum. Das ist meine Chance, etwas zu lernen.
Glen_b
1
@RussLenth Sie können eine Downvote (oder Upvote) rückgängig machen, indem Sie erneut auf die Downvote klicken. Wenn Sie sich nicht sicher sind, wo sich Ihre Stimmen im Hovertext über dem Abwärts- (oder Aufwärts-) Pfeil befinden, werden Sie informiert.
Alexis
4
+1 Ich habe viel von dieser Analyse gemacht, wollte aber meine Antwort mit diesen Ergebnissen nicht übermäßig erweitern. Sie haben großartige Arbeit geleistet, indem Sie es in einer klaren, lesbaren und überzeugenden Form präsentiert haben. Eine Sache, die ich zusätzlich getan habe, war, x gegen y zu regressieren (tatsächlich glatt zu machen) (trotz der Charakterisierung von y als "abhängig"): Ich denke, das Ergebnis war hilfreich, um die Nichtlinearität in der Beziehung auf eine Weise zu bewerten, die unabhängig davon ist, ob y sollte als eine oder zwei Gruppen behandelt werden.
Whuber
13

Okay Leute, ich bin Alexis gefolgt und habe die Daten erfasst. Hier ist ein Plot von gegen .xlogyxDiagramm von log (Y) gegen X

Und die Zusammenhänge:

> cor.test(~ x + y, data = data)

    Pearson's product-moment correlation

data:  x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.33836844 -0.04977867
sample estimates:
       cor 
-0.1983692 

> cor.test(~ x + log(y), data = data)

    Pearson's product-moment correlation

data:  x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.35551268 -0.06920015
sample estimates:
       cor 
-0.2170188 

Der Korrelationstest zeigt eine wahrscheinliche negative Abhängigkeit an. Ich bin von keiner Bimodalität überzeugt (aber auch nicht davon, dass sie nicht vorhanden ist).

[Ich habe ein Restdiagramm entfernt, das ich in einer früheren Version hatte, weil ich den Punkt übersehen habe, an dem @whuber versuchte, vorherzusagen .]X|Y

rvl
quelle
2
Übrigens ... mir ist gerade eingefallen, dass es immer noch äquivalent ist, die log (Y) -Transformation als abhängig zu betrachten, um eine nichtlineare Beziehung zu finden Meine Antwort ... aber eine der Schlussfolgerungen ist ähnlich: Die Beziehung zwischen und hat bessere funktionale Ausdrücke als . X Y = a + b XYXY=a+bX
Alexis
Danke für den Rest, Russ. Dies ist keine Anfrage, aber ich möchte darauf hinweisen, dass das, was ich als interessant und vielleicht von größerem Wert für die Erforschung von GoF befunden habe, die Beziehung von x als Funktion von y war und nicht umgekehrt. Ein Blick auf die x- Residuen wirft einige zusätzliche (möglicherweise nützliche) Fragen auf, die bisher nicht aufgeworfen wurden, z. B., ob wir durch nichtlineare Wiederausdrücke von x etwas lernen könnten (ja, wir können). Ob viel gesagt werden kann, unabhängig von der Zwei-Bevölkerungs-Hypothese (ja, wieder) und über die Robustheit meiner Passform (sie ist sehr robust).
Whuber
Nun, vielleicht möchten Sie den Restplot dafür machen. Ich gehe weiter zu anderen Sachen.
Rvl
5

Russ Lenth fragte sich, wie der Graph aussehen würde, wenn die Y-Achse logarithmisch wäre. Alexis hat die Daten abgekratzt, sodass es einfach ist, sie mit einer Log-Achse zu zeichnen:

Bildbeschreibung hier eingeben

Auf einer logarithmischen Skala gibt es keinen Hinweis auf Bimodalität oder Trend. Ob eine logarithmische Skala sinnvoll ist oder nicht, hängt natürlich von den Einzelheiten der Daten ab. In ähnlicher Weise hängt es von den Details ab, ob es sinnvoll ist, zu glauben, dass die Daten Stichproben aus zwei Populationen darstellen, wie von whuber vorgeschlagen.


Nachtrag: Basierend auf den Kommentaren unten ist hier eine überarbeitete Version:

Bildbeschreibung hier eingeben

Harvey Motulsky
quelle
Ich habe meine Grafik innerhalb weniger Minuten nach Russ Lenth gepostet. Ich hätte seinen nicht gesehen, oder ich hätte meinen nicht gepostet.
Harvey Motulsky
Nach meiner Einschätzung sind die (linearen) Regressionsergebnisse mit log ( ) stärker . Y
Alexis
9
Diese Grafik zeigt ein interessantes Beispiel für den Effekt einer unzureichenden Auswahl der Visualisierung: Durch Verkleinerung des Seitenverhältnisses und mehr als zweifache Verlängerung der y-Achse unterdrückt die Software automatisch den visuellen Eindruck von vertikaler Streuung. es für den Betrachter schwierig zu machen, viel von irgendetwas zu sehen. Aus diesem Grund muss eine gute Untersuchung, auch wenn sie sich an einer grafischen Darstellung orientiert, (a) geeignete Visualisierungsmethoden verwenden, die das Datenverhalten aufdecken , anstatt es zu unterdrücken, und (b) sie mit zusätzlichen Analysen unterstützen (wie in @ Glen_bs Beitrag gezeigt). .
Whuber
Für die Bereiche von Y in der Frage wäre die logarithmische Basis 2 eine einfachere Wahl, um einen vernünftigen Wertebereich für die Y-Achse zu haben. Es würde auch den oberen Bereich von den netten Werten 1 und 1.000 abhalten, die nicht mit den vorliegenden Daten übereinstimmen.
Andy W
1

Sie haben recht, die Beziehung ist schwach, aber nicht null. Ich würde positiv raten. Aber raten Sie nicht, führen Sie einfach eine einfache lineare Regression (OLS-Regression) aus und finden Sie es heraus! Dort erhalten Sie eine Steigung von xxx, die Ihnen die Beziehung angibt. Und ja, es gibt Ausreißer, die die Ergebnisse beeinflussen könnten. Damit kann man fertig werden. Sie können die Cook-Distanz verwenden oder ein Hebel-Diagramm erstellen, um die Auswirkung der Ausreißer auf die Beziehung abzuschätzen.

Viel Glück

Helgi Guðmundsson
quelle
Was lässt Sie denken, dass sie echte Ausreißer sind, anstatt dass der DGP nicht linear ist?
Abaumann
Nun, ich denke, das könnte auch der Fall sein. Aber es ist schwer zu sagen, die Punkte sind so verstreut.
Helgi Guðmundsson
Warum Linearität mit OLS annehmen? Nichtparametrische Regression FTW! :)
Alexis
1
@Alexis betont zu Recht, dass Annahmen wie die Linearität gerechtfertigt sein müssen, sei es durch die Domänentheorie oder durch die Modellprüfung. Ich denke jedoch, dass das vollständige Löschen von Ausreißern ohne sorgfältige Überlegung, warum solche Werte aufgetreten sind, ein sehr häufiger Fehler in der statistischen Analyse ist.
Abaumann
Ja, Ausreißer können nicht ohne eine gute Begründung wie einen falschen Wert gelöscht werden. Transformationen können jedoch dazu beitragen, die Werteverteilung besser anzupassen und Ausreißer zu reduzieren. Und ja, ich bin damit einverstanden, ich glaube, es ist durchaus üblich, Ausreißer ohne berechtigten Grund zu löschen.
Helgi Guðmundsson
1

Sie haben Ihre Frage bereits anhand der Ausrichtung der X / Y-Datenpunkte und ihrer Streuung erläutert. Kurz gesagt, du hast recht.

Formal Orientierung kann als bezeichnet werden Korrelationszeichen und Dispersion als Varianz . Über diese beiden Links erhalten Sie weitere Informationen zur Interpretation der linearen Beziehung zwischen zwei Variablen.

Robert Kubrick
quelle
0

Dies ist eine Hausarbeit. Die Antwort auf Ihre Frage ist also einfach. Wenn Sie eine lineare Regression von Y auf X ausführen, erhalten Sie ungefähr Folgendes:

    Coefficient Standard Er t Stat
C   53.14404163 6.522516463 8.147781908
X   -44.8798926 16.80565866 -2.670522684

Daher ist die t-Statistik für die X-Variable bei einer Konfidenz von 99% signifikant. Daher können Sie die Variablen als eine Art Beziehung deklarieren.

Ist es linear? Addiere eine Variable X2 = (X-mean (X)) ^ 2 und regressiere erneut.

    Coefficient Stand Err   t Stat
C   53.46173893 6.58938281  8.11331508
X   -43.9503443 17.01532569 -2.582985779
X2  -44.601130  114.1461801 -0.390736951

Der Koeffizient bei X ist immer noch signifikant, bei X2 jedoch nicht. X2 steht für Nichtlinearität. Sie erklären also, dass die Beziehung linear zu sein scheint.

Das obige war für eine Hausarbeit.

Im wirklichen Leben sind die Dinge komplizierter. Stellen Sie sich vor, dies wären die Daten einer Klasse von Schülern. Y - Bankdrücken in Pfund, X - Zeit in Minuten, in denen man vor dem Bankdrücken den Atem anhält. Ich würde nach dem Geschlecht der Schüler fragen. Fügen Sie einfach zum Spaß eine weitere Variable hinzu, Z, und sagen wir, dass Z = 1 (Mädchen) für alle Y <60 und Z = 0 (Jungen), wenn Y> = 60. Führen Sie die Regression mit drei Variablen aus:

    Coefficient Stand Error t Stat
C   92.93031357 3.877092841 23.969071
X   -6.55246715 8.977138488 -0.72990599
X2  -43.6291362 59.06955097 -0.738606194
Z   -63.3231270 2.960160265 -21.39179009

Was ist passiert?! Die "Beziehung" zwischen X und Y ist verschwunden! Oh, es scheint, dass die Beziehung aufgrund der verwirrenden Variablen , des Geschlechts, falsch war .

Was ist die Moral der Geschichte? Sie müssen wissen, welche Daten vorhanden sind, um die "Beziehung" zu "erklären" oder gar erst herzustellen. In diesem Fall werde ich in dem Moment, in dem mir mitgeteilt wird, dass die Daten zur körperlichen Aktivität der Schüler sofort nach ihrem Geschlecht fragen, und mich nicht einmal darum kümmern, die Daten zu analysieren, ohne die geschlechtsspezifische Variable zu erhalten.

Wenn Sie jedoch aufgefordert werden, die Streudiagramme zu "beschreiben", ist alles möglich. Korrelationen, lineare Anpassungen usw. Für Ihre Hausarbeit sollten die ersten beiden Schritte oben ausreichen: Betrachten Sie den Koeffizienten von X (Beziehung), dann X ^ 2 (Linearität). Stellen Sie sicher, dass Sie die X-Variable vom Mittelwert trennen (subtrahieren Sie den Mittelwert).

Aksakal
quelle