Wir haben zwei Variablen gemessen und das Streudiagramm scheint mehrere "lineare" Modelle nahezulegen. Gibt es eine Möglichkeit, diese Modelle zu destillieren? Es hat sich als schwierig erwiesen, andere unabhängige Variablen zu identifizieren.
Beide Variablen sind stark nach links verschoben (in Richtung der kleinen Zahlen), dies ist eine erwartete Verteilung in unserer Domäne. Die Intensität des Punktes repräsentiert die Anzahl der Datenpunkte (auf einer Skala) bei diesem .
Gibt es alternativ eine Möglichkeit, die Punkte zu gruppieren?
Auf unserem Gebiet wird behauptet, dass diese beiden Variablen linear korrelieren. Wir versuchen zu verstehen / zu erklären, warum dies in unseren Daten nicht der Fall ist.
(Beachten Sie, wir haben 17M Datenpunkte)
Update: Vielen Dank für alle Antworten, hier sind einige angeforderte Erläuterungen:
- Beide Variablen sind nur Ganzzahlen, was einige der Muster im Protokollstreudiagramm erklärt.
- Glücklicherweise ist per Definition der Minimalwert beider Variablen 1.
- 7M Punkte liegen bei ("erklärt" durch die Linksschiefe der Daten)
Hier sind die angeforderten Grundstücke:
Log-Log-Streudiagramm:
(Die Leerzeichen werden durch die ganzzahligen Werte verursacht.)
log-log polar:
Histogramm des Verhältnisses:
Die Frequenz liegt auf einer logarithmischen Skala, da der Balken 7M-Punkte beträgt und die anderen Balken ausblenden würde.
quelle
Antworten:
Ein terminologischer Punkt: Die Schiefe in der Statistik wird mit Bezug auf den Schwanz beschrieben, der stärker gestreckt ist. Es steht Ihnen frei, diese Terminologie als rückwärts zu betrachten. Hier werden beide Variablen auf hohe Werte oder positiv oder rechts verzerrt.
Nach wie vor würde ich nicht empfehlen, verschiedene Streifen ohne einen wissenschaftlichen Grund unterschiedlich zu modellieren, um sie zu unterscheiden oder getrennt zu behandeln. Sie sollten nur einen Durchschnitt über dem haben, was Sie haben. (Möglicherweise gibt es bekannte Methoden, mit denen diese Art von Daten die Diskriminanz unterdrückt. Wenn Personen in Ihrem Bereich routinemäßig Millionen von Punkten für jedes Diagramm messen, ist es schwer zu glauben, dass dies noch nie zuvor gesehen wurde.)
Die Korrelation sollte auf jeden Fall positiv sein. Abgesehen von einem formalen Signifikanztest, der hier völlig nutzlos wäre, da winzige Korrelationen bei dieser Stichprobengröße als signifikant eingestuft werden, hängt es von den Erwartungen und Standards in Ihrem Bereich ab, ob er als stark eingestuft wird. Der quantitative Vergleich Ihrer Korrelation mit den Ergebnissen anderer ist ein weiter Weg.
Detail: Die Schiefe wird nach statistischer Konvention immer noch falsch herum beschrieben. Diese Variablen sind rechtwinklig. Dieser Jargon passt, wenn man ein Histogramm mit horizontaler Größenachse betrachtet und feststellt, dass die Schiefe nach dem längeren Schwanz benannt ist, nicht nach der Konzentration mit mehr Werten.
quelle
quelle
Ich habe in einigen meiner Datensätze ein ähnliches Verhalten beobachtet. In meinem Fall waren die mehreren verschiedenen Zeilen auf einen Quantisierungsfehler in einem meiner Verarbeitungsalgorithmen zurückzuführen.
Das heißt, wir betrachten Streudiagramme verarbeiteter Daten, und der Verarbeitungsalgorithmus hatte einige Quantisierungseffekte, die Abhängigkeiten in den Daten verursachten, die genau so aussahen, wie Sie sie oben angegeben haben.
Das Korrigieren der Quantisierungseffekte führte dazu, dass unsere Ausgabe weitaus glatter und weniger verklumpt wirkte.
Wie für Ihre "lineare Korrelation" Kommentar. Was Sie präsentiert haben, reicht nicht aus, um festzustellen, ob diese Daten linear korreliert sind oder nicht. Das heißt, in einigen Bereichen wird ein Korrelationskoeffizient von> 0,7 als starke lineare Korrelation angesehen. Angesichts der Tatsache, dass sich die meisten Ihrer Daten in der Nähe des Ursprungs befinden, ist es durchaus denkbar, dass Ihre Daten in Bezug auf das, was "konventionelle Weisheit" sagen würde, linear korreliert sind. Die Korrelation sagt wenig über einen Datensatz aus.
quelle