Beispiele für unabhängige und nicht korrelierte Daten im realen Leben und Möglichkeiten zu deren Messung / Erkennung

20

Wir hören immer von diesem Datenvektor im Vergleich zu diesem anderen Datenvektor, der unabhängig voneinander oder nicht korreliert usw. ist, und obwohl es in Bezug auf diese beiden Konzepte leicht zu verstehen ist, möchte ich sie mit Beispielen aus der Realität verknüpfen. Leben, und auch Wege finden, um diese Beziehung zu messen.

Unter diesem Gesichtspunkt suche ich nach Beispielen für zwei Signale, die aus den folgenden Kombinationen bestehen: (Ich beginne mit einigen):

  • Zwei Signale, die unabhängig UND (notwendigerweise) unkorreliert sind:

    • Das Geräusch eines Automotors (nennen Sie es ) und Ihre Stimme ( ), während Sie sprechen.v1[n]v2[n]
    • Eine Aufzeichnung der täglichen Luftfeuchtigkeit ( ) und des Dow-Jones-Index ( ).v1[n]v2[n]

F1) Wie würden Sie messen / beweisen, dass sie mit diesen beiden Vektoren unabhängig sind? Wir wissen, dass Unabhängigkeit bedeutet, dass das Produkt ihrer PDFs gleich ihrem gemeinsamen PDF ist, und das ist großartig, aber wie kann man mit diesen beiden Vektoren ihre Unabhängigkeit beweisen?

  • Zwei Signale, die NICHT unabhängig, aber immer noch unkorreliert sind:

F2) Ich kann mir hier keine Beispiele vorstellen ... was wären einige Beispiele? Ich weiß, dass wir die Korrelation messen können, indem wir die Kreuzkorrelation zweier solcher Vektoren verwenden, aber wie würden wir beweisen, dass sie auch NICHT unabhängig sind?

  • Zwei Signale, die korreliert sind:
    • Ein Vektor, der die Stimme einer Opernsängerin in der Haupthalle misst, , während jemand ihre Stimme von irgendwo im Gebäude aufzeichnet, etwa im Proberaum ( ).v1[n]v2[n]
    • Wenn Sie kontinuierlich Ihre Herzfrequenz in Ihrem Auto messen ( ) und auch die Intensität der blauen Lichter messen würden, die auf Ihre Heckscheibe treffen ( ) ... Ich vermute, dass diese sehr korrelieren würden. . :-)v1[n]v2[n]

Q3) Bezogen auf q2, aber reicht es im Fall der Messung der Kreuzkorrelation von diesem empirischen Standpunkt aus, das Skalarprodukt dieser Vektoren zu betrachten (da dies der Wert an der Spitze ihrer Kreuzkorrelation ist)? Warum interessieren uns andere Werte in der Cross-Corr-Funktion?

Nochmals vielen Dank, je mehr Beispiele, desto besser für den Aufbau der Intuition!

Spacey
quelle
@ DilipSarwate Danke Dilip, ich werde es mir ansehen. Für den Moment wären einige Beispiele jedoch gut.
Spacey
Sie können nicht "beweisen", dass sie unabhängig sind, wie es auch bei einer gut ausgearbeiteten Umfrage nicht möglich ist, zu "beweisen", wie alle abstimmen werden - und das aus denselben Gründen.
Jim Clay
@JimClay Fühlen Sie sich frei, das Kriterium 'beweisen' zu lockern - was ich versuche zu erreichen, sind Möglichkeiten zur Messung / Quantifizierung der Unabhängigkeit. Wir hören oft davon, dass sie so und so unabhängig sind. Woher wissen sie das? Welches Maßband wird verwendet?
Spacey
Ich möchte wissen, ob die Kreuzkorrelation für zwei analoge Signale mit hoher und für Analysezwecke mit niedriger Auflösung verwendet werden kann.
Wenn wir eine Zufallsvariable X haben und 2 Signale konstruieren, gilt a ** = (x) und ** b ** = f 2 (x), wobei f 1 und f 2 orthogonal sind und ** x = a + bf1f2f1f2 . Würde dies bedeuten, dass solche Signale unabhängig sind? Benötigt dies einige zusätzliche Bedingungen? Diese Eigenschaft wäre interessant, da sie die Erstellung gemeinsamer PDFs von a und b vermeidet .
Mladen

Antworten:

9

Ein paar Elemente ... (Ich weiß, dass dies nicht erschöpfend ist, eine vollständigere Antwort sollte wahrscheinlich Momente erwähnen)

Q1

Um zu überprüfen, ob zwei Verteilungen unabhängig sind, müssen Sie messen, wie ähnlich ihre gemeinsame Verteilung dem Produkt ihrer Randverteilung p ( x ) × p ( y ) ist . Zu diesem Zweck können Sie einen beliebigen Abstand zwischen den Verteilungen verwenden. Wenn Sie die Kullback-Leibler-Divergenz verwenden, um diese Verteilungen zu vergleichen, berücksichtigen Sie die Menge:p(x,y)p(x)×p(y)

xyp(x,y)logp(x,y)p(x)p(y)dxdy

Und Sie werden ... die gegenseitigen Informationen erkannt haben! Je niedriger dieser Wert ist, desto unabhängiger sind die Variablen.

Um diese Größe aus Ihren Beobachtungen zu berechnen, können Sie entweder die Dichten , p ( y ) , p ( x , y ) aus Ihren Daten mit einem Kernel-Dichteschätzer abschätzen und eine numerische Integration in einem feinen Gitter durchführen ; oder quantifizieren Sie einfach Ihre Daten in N Bins und verwenden Sie den Ausdruck der gegenseitigen Informationen für diskrete Verteilungen.p(x)p(y)p(x,y)N

Q2

Auf der Wikipedia-Seite zur statistischen Unabhängigkeit und Korrelation:

Verteilungsgrundstücke

Mit Ausnahme des letzten Beispiels haben diese 2D-Verteilungen nicht korrelierte (diagonale Kovarianzmatrix), jedoch keine unabhängigen Randverteilungen p ( x ) und p ( y ) .p(x,y)p(x)p(y)

Q3

In der Tat gibt es Situationen, in denen Sie sich alle Werte der Kreuzkorrelationsfunktionen ansehen können. Sie entstehen beispielsweise bei der Audiosignalverarbeitung. Stellen Sie sich zwei Mikrofone vor, die dieselbe Quelle erfassen, aber einen Abstand von einigen Metern haben. Die Kreuzkorrelation der beiden Signale hat eine starke Spitze bei der Verzögerung, die dem Abstand zwischen den Mikrofonen geteilt durch die Schallgeschwindigkeit entspricht. Wenn Sie sich nur die Kreuzkorrelation bei Verzögerung 0 ansehen, werden Sie nicht sehen, dass ein Signal eine zeitversetzte Version des anderen ist!

Pichenetten
quelle
Danke Pichenetten: 1) Können Sie bitte auf Ihren ersten Punkt näher eingehen? Es fällt mir wirklich schwer zu verstehen, wie ich aus zwei Datenvektoren, x [n] und y [n], möglicherweise ihr JOINT-PDF erstellen kann , . Ich kann verstehen, wie die Aufnahme eines Histogramms von x [n] mir ein PDF von X ( p (x} ) und dasselbe mit Y liefert, aber wie um alles in der Welt kommt man auf eine Verbindung mit zwei Vektoren? Fragen konkret - genaue konkrete Zuordnung eines PDF aus beobachteten Proben. Dies ist, was mich am meisten verwirrt. (Forts.)p(x,y)p(x}
Spacey
(Forts.) 2) Zusammenfassend: Wenn die Kovarianzmatrix von x und y diagonal ist, dann sind sie nicht korreliert, aber NICHT unbedingt unabhängig korrekt? Um die Unabhängigkeit zu testen, ging es um die Frage (1). Wenn wir jedoch zeigen, dass sie unabhängig sind, muss ihre Kovarianzmatrix natürlich diagonal sein. Habe ich richtig verstanden? Was ist ein Beispiel für zwei physikalische Signale, die ich im wirklichen Leben messen kann, die abhängig, aber nicht korreliert sind? Danke noch einmal.
Spacey
1
Angenommen, Sie haben zwei Signale und y n, die als Vektoren von N Elementen dargestellt werden. Sie können eine Schätzung erhalten p ( x , y ) verwendet wird , beispielsweise eine Kerndichteschätzer: p * ( x , y ) = Σ i 1xnynNp(x,y)wobeiKeine Kernelfunktion ist. Sie können auch die gleiche Technik wie beim Erstellen eines Histogramms verwenden, jedoch in 2D. Bauen Sie ein rechteckiges Gitter auf, zählen Sie, wie viele Paare(xn,yn)in jede Zelle des Gitters fallen, und verwenden Siep(x,y)=Cp(x,y)=i1NK(xxi,yyi)K(xn,yn) wobei N die Größe Ihrer Signale undCdie Anzahl der Elemente in der Zelle ist, die dem Punkt(x,y) zugeordnet sind. p(x,y)=CNC(x,y)
Pichenettes
1
"2 physikalische Signale, die abhängig, aber nicht korreliert wären": Nehmen wir an, wir hacken das GPS eines New Yorker Taxis, um eine (Längen-, Breiten-) Historie seiner Position aufzuzeichnen. Es ist gut möglich, dass der Lat., Lange. Daten werden nicht korreliert - es gibt keine privilegierte "Ausrichtung" der Punktwolke. Aber es wird kaum unabhängig sein, da Sie, wenn Sie gebeten würden, den Breitengrad des Taxis zu erraten, einen viel besseren Tipp abgeben würden, wenn Sie den Längengrad kennen (Sie könnten dann auf eine Karte schauen und das [lat, lang] von Gebäuden besetzte Paare).
Pichenettes
Ein weiteres Beispiel: Zwei Sinuswellen mit einem ganzzahligen Vielfachen derselben Frequenz. Nullkorrelation (Fourier-Basis ist orthonormal); Aber wenn Sie den Wert eines kennen, gibt es nur eine endliche Menge von Werten, die der andere annehmen kann (denken Sie an einen Lissajous-Plot).
Pichenettes
5

Zu schließen, ob zwei Signale unabhängig sind, ist sehr schwierig (bei endlichen Beobachtungen), ohne dass Vorkenntnisse / Annahmen vorliegen.

XYXYYXY

cov(f1(X),f2(Y))=E(f1(X),f2(Y))=0
f1f2XYf1(x)=f2(x)=x

E(XiYj)

X(t)Y(t)

SX,Y(f),SX2,Y(f),SX,Y2(f)
f

Beispiel :

X(t)=sin(2πft)
Y(t)=sin(2πftk)
kZk1X(t)Y(t)sin(kx)sin(x)
Y(t)=f(X(t))
f

X(t)Y(t)

rwolst
quelle
Xx2,Y(f) is exactly? Thank you.
Spacey
de.wikipedia.org/wiki/Kreuzspektrum Wo wir die Kreuzspektren zwischen den Signalen betrachtenX2(t) und Y.(t).
rwolst