Ich habe ein Streudiagramm mit einer Stichprobengröße, die der Anzahl der Personen auf der x-Achse und dem Durchschnittsgehalt auf der y-Achse entspricht. Ich versuche herauszufinden, ob sich die Stichprobengröße auf das Durchschnittsgehalt auswirkt.
Dies ist die Handlung:
Wie interpretiere ich diese Handlung?
Antworten:
„Finden Sie heraus , “ zeigt Sie erkunden die Daten. Formale Tests wären überflüssig und suspekt. Wenden Sie stattdessen Standardtechniken zur explorativen Datenanalyse (EDA) an, um zu ermitteln, was in den Daten enthalten sein kann.
Diese Standardtechniken umfassen die Reexpression , die Restanalyse , robuste Techniken (die "drei R" von EDA) und die Glättung der Daten, wie von John Tukey in seinem klassischen Buch EDA (1977) beschrieben. Wie man einige davon durchführt, wird in meinem Post bei Box-Cox beschrieben, wie man unabhängige Variablen transformiert? und Wann ist es in der linearen Regression angebracht, das Protokoll einer unabhängigen Variablen anstelle der tatsächlichen Werte zu verwenden? , Unter anderem .
Das Ergebnis ist, dass viel zu sehen ist, wenn Sie zu Log-Log-Achsen wechseln (beide Variablen effektiv wieder ausdrücken), die Daten nicht zu aggressiv glätten und Reste der Glättung untersuchen, um zu überprüfen, was sie möglicherweise übersehen haben, wie ich veranschaulichen werde.
Hier sind die Daten mit einer Glättung dargestellt, die - nach Prüfung mehrerer Glättungen mit unterschiedlicher Wiedergabetreue - als guter Kompromiss zwischen zu viel und zu wenig Glättung erscheint. Es verwendet Löss, eine bekannte robuste Methode (sie wird nicht stark von vertikal liegenden Punkten beeinflusst).
Das vertikale Raster ist in Schritten von 10.000. Die Glättung weist auf eine Variation der
Grad_median
Stichprobengröße hin: Sie scheint abzufallen, wenn sich die Stichprobengröße 1000 nähert. (Die Enden der Glättung sind nicht vertrauenswürdig - insbesondere bei kleinen Stichproben, bei denen ein relativ großer Stichprobenfehler zu erwarten ist Lesen Sie nicht zu viel hinein.) Dieser Eindruck eines echten Tropfens wird durch die (sehr rauen) Vertrauensbereiche gestützt, die von der Software um die Glatte gezogen werden: Ihre "Wackelbewegungen" sind größer als die Breiten der Bereiche.Wir sind interessiert an (a) ob es zusätzliche Variationsmuster gibt, wenn sich die Stichprobengröße ändert, und (b) ob die bedingten Verteilungen der Antwort - die vertikalen Verteilungen der Punktpositionen - über alle Werte der Stichprobengröße plausibel ähnlich sind, oder ob sich ein Aspekt von ihnen (wie ihre Ausbreitung oder Symmetrie) ändern könnte.
Folglich ist diese einfache Zusammenfassung:
erfasst die in den Daten erscheinenden Beziehungen angemessen und scheint über alle Hauptkategorien hinweg einheitlich zu sein. Ob dies von Bedeutung ist, dh ob es angesichts zusätzlicher Daten Bestand haben würde, kann nur durch die Erhebung dieser zusätzlichen Daten beurteilt werden.
Für diejenigen, die diese Arbeit überprüfen oder weiterentwickeln möchten, ist hier der
R
Code.quelle
Glen_b schlägt vor, den Logarithmus von sample_size und Mediangehalt zu verwenden, um festzustellen, ob eine Neuskalierung der Daten sinnvoll ist.
Ich weiß nicht, dass ich Ihrer Überzeugung zustimmen würde, dass das Durchschnittsgehalt abnimmt, sobald die Stichprobengröße über 1.000 steigt. Ich würde eher sagen, dass es überhaupt keine Beziehung gibt. Sagt Ihre Theorie voraus, dass es eine Beziehung geben sollte?
Eine andere Möglichkeit, eine mögliche Beziehung einzuschätzen, besteht darin, eine Regressionslinie an die Daten anzupassen. Alternativ können Sie auch eine Lowess-Kurve verwenden. Zeichnen Sie beide Zeilen in Ihre Daten ein und prüfen Sie, ob etwas herausgeputzt werden kann (ich bezweifle jedoch, dass etwas übermäßig aussagekräftig ist).
quelle
Ich stimme auch zu, dass es keine Beziehung gibt. Ich habe Ihr ursprüngliches Streudiagramm (links) reproduziert und das von glen_b (rechts) vorgeschlagene Log-Log-Streudiagramm erstellt.
Sieht so aus, als gäbe es keine Beziehung zu. Die Korrelation zwischen logarithmisch transformierten Daten ist schwach (Pearson R = -.13) und nicht signifikant (p = .09). Abhängig davon, wie viele zusätzliche Informationen Sie haben, gibt es möglicherweise einen Grund, eine schwache negative Korrelation zu sehen, aber das scheint eine Strecke zu sein. Ich würde vermuten, dass jedes offensichtliche Muster, das Sie sehen, derselbe Effekt ist, den Sie hier sehen .
quelle
Wenn Sie eine lineare Regression versuchen, erfahren Sie etwas über diese Beziehung, wie in der ersten Antwort vorgeschlagen. Da Sie für diesen Plot anscheinend Python plus matplotlib verwenden, sind Sie nur eine Codezeile von der Lösung entfernt.
Sie können ein seegeborenes Jointplot verwenden, das auch die lineare Regressionslinie, den Pearson-Korrelationskoeffizienten und seinen p-Wert anzeigt:
Wie Sie sehen, besteht keine Korrelation. Betrachtet man diesen letzten Plot, scheint es nützlich zu sein, die x-Variable logarithmisch zu transformieren. Lass es uns versuchen:
Sie können deutlich sehen, dass - ob logarithmische Transformation oder nicht - die Korrelation gering ist und sowohl der p-Wert als auch die Konfidenzintervalle besagen, dass sie statistisch nicht aussagekräftig sind.
quelle
Dieses Diagramm dient als Demonstration des zentralen Grenzwertsatzes, bei dem die Variabilität zwischen Stichproben mit zunehmender Stichprobengröße abnimmt. Es ist auch die Form, die Sie mit einer stark verzerrten Variable wie Gehalt erwarten würden.
quelle