Aus der statistischen Zufälligkeit von Wikipedia :
Globaler Zufall und lokaler Zufall sind unterschiedlich. Die meisten philosophischen Vorstellungen von Zufälligkeit sind global - denn sie basieren auf der Idee, dass eine Sequenz "auf lange Sicht" wirklich zufällig aussieht, auch wenn bestimmte Teilsequenzen nicht zufällig aussehen würden. Beispielsweise ist es in einer "wirklich" zufälligen Folge von Zahlen mit ausreichender Länge wahrscheinlich, dass es lange Folgen von nichts als Nullen gibt, obwohl die Folge insgesamt zufällig sein kann. Lokale Zufälligkeit bezieht sich auf die Idee, dass es minimale Sequenzlängen geben kann, in denen zufällige Verteilungen angenähert werden.Lange Strecken mit denselben Ziffern, selbst solche, die durch "echte" Zufallsprozesse erzeugt wurden, würden die "lokale Zufälligkeit" einer Stichprobe verringern (sie könnte nur für Sequenzen mit 10.000 Ziffern lokal zufällig sein; Sequenzen mit weniger als 1.000 erscheinen möglicherweise nicht zufällig) überhaupt, zum Beispiel).
Eine ein Muster aufweisende Sequenz ist dabei nicht statistisch nicht zufällig erwiesen. Nach den Prinzipien der Ramsey-Theorie müssen ausreichend große Objekte notwendigerweise eine bestimmte Unterstruktur enthalten ("vollständige Unordnung ist unmöglich").
Ich verstehe die Bedeutung der beiden fett gedruckten Sätze nicht ganz.
Bedeutet der erste Satz, dass etwas eine Sequenz lokal zufällig in einer längeren Länge und nicht lokal zufällig in einer kürzeren Länge macht?
Wie funktioniert das Beispiel in der Klammer?
- Bedeutet der zweite Satz, dass eine Sequenz, die ein Muster aufweist, nicht als statistisch nicht zufällig erwiesen werden kann? Warum?
Vielen Dank
Antworten:
Das Konzept lässt sich durch ausführbaren Code gut veranschaulichen. Wir beginnen (in
R
), indem wir einen guten Pseudozufallszahlengenerator verwenden, um eine Folge von 10.000 Nullen und Einsen zu erstellen:Dies besteht einige grundlegende Zufallszahltests. Zum Beispiel hat ein t-Test zum Vergleichen des Mittelwerts mit einen p-Wert von %, wodurch wir die Hypothese akzeptieren können, dass Nullen und Einsen gleich wahrscheinlich sind.40.091 / 2 40.09
Aus diesen Zahlen extrahieren wir eine Teilfolge von aufeinanderfolgenden Werten, beginnend mit dem 5081. Wert:1000
Wenn diese zufällig aussehen sollen, sollten sie auch die gleichen Zufallszahltests bestehen. Testen wir zum Beispiel, ob ihr Mittelwert 1/2 ist:
Der niedrige p-Wert (weniger als 1%) deutet stark darauf hin, dass der Mittelwert signifikant größer als . Die kumulierte Summe dieser Teilsequenz weist in der Tat einen starken Aufwärtstrend auf:1 / 2
Das ist kein zufälliges Verhalten!
Der Vergleich der ursprünglichen Sequenz (als kumulative Summe dargestellt) mit dieser Teilsequenz zeigt, was vor sich geht:
Die lange Sequenz verhält sich in der Tat wie ein zufälliger Gang - wie es sein sollte -, aber die bestimmte Teilsequenz, die ich extrahiert habe, enthält den längsten Anstieg unter allen Teilsequenzen gleicher Länge. Es sieht so aus, als hätte ich auch einige andere Subsequenzen extrahieren können, die ein "nicht zufälliges" Verhalten aufweisen, wie die um zentrierte, bei der ungefähr 20 in einer Reihe erscheinen!9000
Wie diese einfachen Analysen gezeigt haben, kann kein Test "beweisen", dass eine Sequenz zufällig erscheint. Alles, was wir tun können, ist zu testen, ob Sequenzen von den von Zufallssequenzen erwarteten Verhaltensweisen ausreichend abweichen, um den Beweis zu erbringen, dass sie nicht zufällig sind. So funktionieren Batterien von Zufallstests : Sie suchen nach Mustern, die in Zufallszahlenfolgen höchstwahrscheinlich nicht auftreten. Von Zeit zu Zeit lassen sie uns zu dem Schluss kommen, dass eine wirklich zufällige Folge von Zahlen nicht zufällig erscheint: Wir werden sie ablehnen und etwas anderes versuchen.
Langfristig wird jedoch - so wie wir alle tot sind - jeder echte Zufallszahlengenerator jede mögliche Folge von 1000 Ziffern erzeugen , und das unendlich oft. Was uns vor einem logischen Dilemma rettet, ist, dass wir schrecklich lange warten müssen, bis eine solche offensichtliche Aberration auftritt.
quelle
In diesem Auszug werden die Begriffe "lokale Zufälligkeit" und "globale Zufälligkeit" verwendet, um zu unterscheiden, was mit einer endlichen Anzahl von Stichproben einer Zufallsvariablen und der Wahrscheinlichkeitsverteilung oder -erwartung einer Zufallsvariablen auftreten kann.
Beispiel: Wiederholte Versuche einer Bernoulli-Zufallsvariablen (mit Werten in ) mit der Erwartung ergeben, wenn die Anzahl der Stichproben unendlich ist, den Stichprobenmittelwert . Das heißt, . Dies ergibt sich aus dem Gesetz der großen Zahlen. { 0 , 1 } θ θ lim n → ∞ 1xi {0,1} θ θ limn→∞1n∑ni=1xi=θ
Bei der Auswertung des Stichprobenmittelwerts für endliche Stichproben erhalten wir jedoch alle Arten von Werten in . Tatsächlich gibt es eine endliche Wahrscheinlichkeit dafür, dass der Mittelwert der Stichprobe in den Bereich für für einen beliebigen Wert von fällt .[ a , b ] 0 ≤ a < b ≤ 1 θ[0,1] [a,b] 0≤a<b≤1 θ
Hier gibt es nichts Neues.
Dieser Auszug scheint jedoch den ziemlich offensichtlichen Punkt zu : Je größer ist, desto wahrscheinlicher ist es, dass das Verhalten "lokal zufällig" aussieht, wobei "lokal zufällig" (fälschlicherweise) so definiert ist, dass es Muster zeigt, die nahe am Mittelwert liegen ( in diesem Beispiel.)n
Daher würde ich nicht zu viele Gehirnzellen verbrennen, wenn ich an diesen Auszug denke. Es ist mathematisch nicht so genau und irreführend über die Natur der Zufälligkeit.
Bearbeiten basierend auf Kommentar: @kjetilbhalvorsen +1 zu Ihrem Kommentar für das historische Wissen. Ich denke jedoch immer noch, dass der Wert dieser Begriffe begrenzt und irreführend ist. Die Tabellen, die Sie beschreiben, scheinen die irreführende Schlussfolgerung zu ziehen, dass kleine Stichproben, die zum Beispiel Stichproben enthalten, weit vom tatsächlichen erwarteten Wert entfernt sind oder möglicherweise eine unwahrscheinliche, aber durchaus mögliche lange Folge von wiederholten Nullen (in meinem Bernoulli-Beispiel) aufweisen weniger Zufälligkeit (indem sie sagen, dass sie diese falsche "lokale Zufälligkeit" nicht aufweisen). Ich kann mir nichts irreführenderes für den angehenden Statistiker vorstellen!
quelle
Ich denke, die Autoren des Wikipedia-Beitrags interpretieren die Zufälligkeit falsch. Ja, es kann Strecken geben, die nicht zufällig zu sein scheinen, aber wenn der Prozess, der die Sequenz erstellt hat, wirklich zufällig ist, muss dies auch die Ausgabe sein. Wenn bestimmte Sequenzen nicht zufällig erscheinen, handelt es sich um eine fehlerhafte Wahrnehmung des Lesers (dh Menschen sind darauf ausgelegt, Muster zu finden). Unsere Fähigkeit, den Großen Wagen und Orion usw. am Nachthimmel zu sehen, ist kein Beweis dafür, dass die Muster der Sterne nicht zufällig sind. Ich bin damit einverstanden, dass Zufälligkeit oft nicht zufällig erscheint. Wenn ein Prozess wirklich zufällige Muster für kurze Sequenzen generiert, ist er kein zufälliger Prozess.
Ich glaube nicht, dass sich der Prozess bei unterschiedlichen Stichprobengrößen ändert. Sie erhöhen die Stichprobengröße und die Wahrscheinlichkeit, dass wir eine zufällige Sequenz sehen, die uns nicht zufällig erscheint. Bei einer Wahrscheinlichkeit von 10%, dass wir ein Muster in 20 zufälligen Beobachtungen sehen, würde eine Erhöhung der Gesamtzahl der Beobachtungen auf 10000 die Wahrscheinlichkeit erhöhen, dass wir irgendwo eine Nicht-Zufälligkeit sehen.
quelle