Wie diskutiere ich ein Streudiagramm mit mehreren auftauchenden Linien?

11

Wir haben zwei Variablen gemessen und das Streudiagramm scheint mehrere "lineare" Modelle nahezulegen. Gibt es eine Möglichkeit, diese Modelle zu destillieren? Es hat sich als schwierig erwiesen, andere unabhängige Variablen zu identifizieren.

Streudiagramm der beiden Variablen

Beide Variablen sind stark nach links verschoben (in Richtung der kleinen Zahlen), dies ist eine erwartete Verteilung in unserer Domäne. Die Intensität des Punktes repräsentiert die Anzahl der Datenpunkte (auf einer log10 Skala) bei diesem <x,y> .

Gibt es alternativ eine Möglichkeit, die Punkte zu gruppieren?

Auf unserem Gebiet wird behauptet, dass diese beiden Variablen linear korrelieren. Wir versuchen zu verstehen / zu erklären, warum dies in unseren Daten nicht der Fall ist.

(Beachten Sie, wir haben 17M Datenpunkte)

Update: Vielen Dank für alle Antworten, hier sind einige angeforderte Erläuterungen:

  • Beide Variablen sind nur Ganzzahlen, was einige der Muster im Protokollstreudiagramm erklärt.
  • Glücklicherweise ist per Definition der Minimalwert beider Variablen 1.
  • 7M Punkte liegen bei ("erklärt" durch die Linksschiefe der Daten)<3,1>

Hier sind die angeforderten Grundstücke:

Log-Log-Streudiagramm: Streudiagramm im Protokollprotokoll

(Die Leerzeichen werden durch die ganzzahligen Werte verursacht.)

log-log polar: Polar Koordinaten θ=y

Histogramm des Verhältnisses: Histogramm des Verhältnisses

Die Frequenz liegt auf einer logarithmischen Skala, da der Balken 7M-Punkte beträgt und die anderen Balken ausblenden würde.1/3

Davy Landman
quelle
2
(r,θ)XYθθ
Gibt es Verhältnisse, um Y und X zu erhalten? Sind Variablen betroffen, die nur diskrete Werte annehmen? Wie sieht es als Log-Log-Plot aus?
Glen_b
1
@whuber & Glen_b Ich habe Diagramme mit diesen Transformationen hinzugefügt.
Davy Landman
rθθθ
@Wenn ich die Handlung aktualisiert habe, setze das Theta auf das y, sind das die Zeilen, die du meinst?
Davy Landman

Antworten:

7

YXY/X

X/kkXk

Y=0log(Y+constant)

Ein terminologischer Punkt: Die Schiefe in der Statistik wird mit Bezug auf den Schwanz beschrieben, der stärker gestreckt ist. Es steht Ihnen frei, diese Terminologie als rückwärts zu betrachten. Hier werden beide Variablen auf hohe Werte oder positiv oder rechts verzerrt.

Y=1Y=0

Nach wie vor würde ich nicht empfehlen, verschiedene Streifen ohne einen wissenschaftlichen Grund unterschiedlich zu modellieren, um sie zu unterscheiden oder getrennt zu behandeln. Sie sollten nur einen Durchschnitt über dem haben, was Sie haben. (Möglicherweise gibt es bekannte Methoden, mit denen diese Art von Daten die Diskriminanz unterdrückt. Wenn Personen in Ihrem Bereich routinemäßig Millionen von Punkten für jedes Diagramm messen, ist es schwer zu glauben, dass dies noch nie zuvor gesehen wurde.)

Die Korrelation sollte auf jeden Fall positiv sein. Abgesehen von einem formalen Signifikanztest, der hier völlig nutzlos wäre, da winzige Korrelationen bei dieser Stichprobengröße als signifikant eingestuft werden, hängt es von den Erwartungen und Standards in Ihrem Bereich ab, ob er als stark eingestuft wird. Der quantitative Vergleich Ihrer Korrelation mit den Ergebnissen anderer ist ein weiter Weg.

Detail: Die Schiefe wird nach statistischer Konvention immer noch falsch herum beschrieben. Diese Variablen sind rechtwinklig. Dieser Jargon passt, wenn man ein Histogramm mit horizontaler Größenachse betrachtet und feststellt, dass die Schiefe nach dem längeren Schwanz benannt ist, nicht nach der Konzentration mit mehr Werten.

Nick Cox
quelle
Ich habe einen Log-Log-Plot hinzugefügt und versucht, die Schiefe genauer zu bestimmen.
Davy Landman
4

Yi=α1+β1Xi+ϵi
mth
Yi=αm+βmXi+ϵi
Mmthpmmpm=1

ϵN(0,σ2)

L(α,β,σ)=m=1Mpm1σϕ(Yiα1β1Xiσ)
ϕ3M+1mpm=1,pm0αβpm1Mαβ

ZipmpmZi

L(α,β,σ)=m=1M(exp(δm+γmZi)mexp(δm+γmZi))1σϕ(Yiα1β1Xiσ)

5M+15M1δ,γ

M

Rechnung
quelle
2
M
2

Ich habe in einigen meiner Datensätze ein ähnliches Verhalten beobachtet. In meinem Fall waren die mehreren verschiedenen Zeilen auf einen Quantisierungsfehler in einem meiner Verarbeitungsalgorithmen zurückzuführen.

Das heißt, wir betrachten Streudiagramme verarbeiteter Daten, und der Verarbeitungsalgorithmus hatte einige Quantisierungseffekte, die Abhängigkeiten in den Daten verursachten, die genau so aussahen, wie Sie sie oben angegeben haben.

Das Korrigieren der Quantisierungseffekte führte dazu, dass unsere Ausgabe weitaus glatter und weniger verklumpt wirkte.

Wie für Ihre "lineare Korrelation" Kommentar. Was Sie präsentiert haben, reicht nicht aus, um festzustellen, ob diese Daten linear korreliert sind oder nicht. Das heißt, in einigen Bereichen wird ein Korrelationskoeffizient von> 0,7 als starke lineare Korrelation angesehen. Angesichts der Tatsache, dass sich die meisten Ihrer Daten in der Nähe des Ursprungs befinden, ist es durchaus denkbar, dass Ihre Daten in Bezug auf das, was "konventionelle Weisheit" sagen würde, linear korreliert sind. Die Korrelation sagt wenig über einen Datensatz aus.

John
quelle