Was sind gebundene Daten im Kontext eines Rangkorrelationskoeffizienten?

16

Ich bin nicht im Statistikbereich.

Ich habe das Wort "gebundene Daten" beim Lesen über Rangkorrelationskoeffizienten gesehen.

Was sind gebundene Daten?
Was ist ein Beispiel für gebundene Daten?

correlation nonparametric ranks BB01
quelle

5

Dies bedeutet, dass Daten denselben Wert haben. Wenn Sie beispielsweise 1, 2, 3, 3, 4 als Datensatz haben, dann sind die beiden 3 Daten gebunden. Wenn Sie 1,2,3,4,5,5,5,6,7,7 als Datensatz haben, sind die 5er und die 7er gebundene Daten.

quarkdown27
quelle

14

"Gebundene Daten" werden im Zusammenhang mit rangbasierten nichtparametrischen statistischen Tests verwendet.

Nichtparametrische Tests : Tests, bei denen keine bestimmte Wahrscheinlichkeitsverteilung angenommen wird, z. B. keine glockenförmige Kurve.

rangbasiert : Eine große Klasse nichtparametrischer Tests beginnt mit der Umwandlung der Zahlen (z. B. "3 Tage", "5 Tage" und "4 Tage") in Ränge (z. B. "kürzeste Dauer (3.)", "längste Dauer") (1.) "," zweitlängste Dauer (2.) "). Eine traditionelle parametrische Testmethode wird dann auf diese Reihen angewendet.

Gebundene Daten sind ein Problem, da jetzt identische Zahlen in Rang umgewandelt werden müssen. Manchmal werden Ränge zufällig vergeben, manchmal wird ein durchschnittlicher Rang verwendet. Am wichtigsten ist, dass ein Protokoll zum Aufbrechen gebundener Ränge zur Reproduzierbarkeit des Ergebnisses beschrieben werden muss.

Ming-Chih Kao
quelle

5

Es sind einfach zwei identische Datenwerte, z. B. das zweimalige Beobachten von 7 im selben Datensatz.

Dies tritt im Zusammenhang mit statistischen Methoden auf, bei denen angenommen wird, dass die Daten kontinuierlich sind und daher identische Messungen nicht möglich sind (oder die Wahrscheinlichkeit, dass identische Werte vorliegen, technisch gesehen Null ist). Praktische Komplikationen ergeben sich, wenn diese Methoden auf Daten angewendet werden, die gerundet oder abgeschnitten sind, so dass identische Messungen nicht nur möglich, sondern ziemlich häufig sind.

John D. Cook
quelle

1

Ich bin mit dieser Argumentation nicht einverstanden, da man das nicht sagen kann, da es mit einer Wahrscheinlichkeit von Null endet, dass dieses Ereignis niemals eintreten wird. Dies ist keine gute Begründung.

Henry.L

2

Die Frage ist von grundlegender Bedeutung:

Was ist eine gebundene Beobachtung / Daten / Paar?

$T^+$

(Ich denke also nicht, dass die Antwort von @ Ming-Chih Kao richtig ist, wenn zuerst nichtparametrische Tests eingeführt werden. Da der Titel jedoch "Was sind gebundene Daten im Kontext eines Rangkorrelationskoeffizienten?" Lautet, werde ich sie kaufen.)

$Z_{i}=X_{i}-Y_{i}$

$(X_{i},Y_{i})$

$Z_{i}$

$|Z_{i}|$

$\{(1,-1) (1,-1)\},\{ (1,2) (1,2) (2,1) (2,1) (2,3) (2,3) (3,2) \},\{(3,0)\}$

Versuchen wir die sehr einfache Methode, wir ordnen von links nach rechts und geben:

$R_{i}$

$|Z_{i}|$

$R_{i}$

$|Z_{i}|$

$R_{i}$

$|Z_{i}|=1$ $|Z_{i}|=2$

$\frac{1+\cdots+7}{7}=4$ $\frac{8+9}{2}=8.5$ . Deshalb haben wir:

$R_{i}$ : 8.5 4 4 8.5 4 4 4 4 4 10

Dadurch wurde die Rangfolge geändert und jede der verknüpften Beobachtungen hat den gleichen Einfluss auf die Berechnung der Rangfolgenstatistik, also auf den Rangfolgetest.

Was sind die Lösungen für gebundene Beobachtungen / Daten / Paare?

(1) Weisen Sie den Durchschnittsrang zu. Genau das haben wir oben getan. Indem wir den verknüpften Daten in derselben Gruppe den gleichen Rang zuweisen, beeinflussen wir sie im bewerteten Test genauso und beseitigen daher die mögliche Ungenauigkeit, die durch verknüpfte Beobachtungen verursacht wird.

(2) Ordnen Sie den Zufallsrang zu. Ordnen Sie einfach jedem verknüpften Gruppenelement Ränge nach dem Zufallsprinzip zu. Die einzige Einschränkung ist das $MaxRank_{first group}<MinRank_{second group}$ seit wann $MaxRank_{first group}>MinRank_{second group}$ , das gegen das Rankinggesetz verstößt; wenn $MaxRank_{first group}=MinRank_{second group}$ Dann müssen wir zwei verbundene Gruppen zu einer zusammenführen.

(3) Störung von Daten. Dies erfordert eine sehr sorgfältige Prüfung der Art der Daten. Dies funktioniert nur, wenn die Daten nicht kategorial (diskret) sind. Im obigen Beispiel können wir einfach Folgendes festlegen: Damit wird jedem Element in der verknüpften Gruppe manuell eine andere Gewichtung zugewiesen. Bei einer kontinuierlichen Verteilung spielt es beispielsweise keine Rolle, ob Sie sie stören $\epsilon$ Weise.

(@ John D. Cooks Antwort ist auf diese Weise etwas irreführend. Eine bessere Möglichkeit, diesen Punkt zu sagen, ist, dass, wenn die Verteilung kontinuierlich ist, $P{X=x}=0$ . Wir werden jedoch Beziehungen beobachten, da unsere Messungen von begrenzter Genauigkeit sind, dh jeder Probenraum in der Realität ist tatsächlich endlich. (@ Quarkdown27s Antwort ist einfach, aber in jedem Wort korrekt.)

Henry.L
quelle

Was sind gebundene Daten im Kontext eines Rangkorrelationskoeffizienten?

Antworten: