Einige Fragen zur statistischen Zufälligkeit

15

Aus der statistischen Zufälligkeit von Wikipedia :

Globaler Zufall und lokaler Zufall sind unterschiedlich. Die meisten philosophischen Vorstellungen von Zufälligkeit sind global - denn sie basieren auf der Idee, dass eine Sequenz "auf lange Sicht" wirklich zufällig aussieht, auch wenn bestimmte Teilsequenzen nicht zufällig aussehen würden. Beispielsweise ist es in einer "wirklich" zufälligen Folge von Zahlen mit ausreichender Länge wahrscheinlich, dass es lange Folgen von nichts als Nullen gibt, obwohl die Folge insgesamt zufällig sein kann. Lokale Zufälligkeit bezieht sich auf die Idee, dass es minimale Sequenzlängen geben kann, in denen zufällige Verteilungen angenähert werden.Lange Strecken mit denselben Ziffern, selbst solche, die durch "echte" Zufallsprozesse erzeugt wurden, würden die "lokale Zufälligkeit" einer Stichprobe verringern (sie könnte nur für Sequenzen mit 10.000 Ziffern lokal zufällig sein; Sequenzen mit weniger als 1.000 erscheinen möglicherweise nicht zufällig) überhaupt, zum Beispiel).

Eine ein Muster aufweisende Sequenz ist dabei nicht statistisch nicht zufällig erwiesen. Nach den Prinzipien der Ramsey-Theorie müssen ausreichend große Objekte notwendigerweise eine bestimmte Unterstruktur enthalten ("vollständige Unordnung ist unmöglich").

Ich verstehe die Bedeutung der beiden fett gedruckten Sätze nicht ganz.

  1. Bedeutet der erste Satz, dass etwas eine Sequenz lokal zufällig in einer längeren Länge und nicht lokal zufällig in einer kürzeren Länge macht?

    Wie funktioniert das Beispiel in der Klammer?

  2. Bedeutet der zweite Satz, dass eine Sequenz, die ein Muster aufweist, nicht als statistisch nicht zufällig erwiesen werden kann? Warum?

Vielen Dank

Tim
quelle
1
gute Frage. Ich finde diesen Text etwas verwirrend. Ich hätte gedacht, ob eine Sequenz zufällig ist oder nicht, hängt davon ab, wie sie erzeugt wird. nicht was das Ergebnis ist. Ich vermute, dass es hier ein sprachliches Problem gibt - für mich bedeutet Zufall, wie es erzeugt wird; für den gesunden Menschenverstand (und möglicherweise weniger klar denkende Philosophen?) handelt es sich um etwas, das ungeordnet erscheint?
Peter Ellis
3
@Peter, es könnte schwierig sein , Zufälligkeiten zu definieren, wenn Sie sich nur auf den Generierungsmechanismus beziehen könnten. Letztendlich muss es eine Möglichkeit geben, die Zufälligkeit nur in Bezug auf die Folgen zu definieren und zu testen, weil der Nutzen von Zufallsfolgen in den Zahlen liegt, die sie enthalten - und nicht in der Art, wie diese Zahlen erzeugt wurden.
whuber
1
Natürlich bin ich damit einverstanden, dass Sie die Zufälligkeit anhand ihrer Ergebnisse testen können - auf Plausibilität der Zufälligkeit, ohne danach zu streben, dies zu beweisen. Ich muss wahrscheinlich noch etwas mehr über die philosophischen Herausforderungen einer Definition nachdenken, die auf Generationen basiert.
Peter Ellis
Ich denke, Zufälligkeit ist nur ein Synonym für Unbekanntes. Auch ich finde diesen Satz bizzare
probabilityislogic
2
Dilbert
Henry

Antworten:

15

Das Konzept lässt sich durch ausführbaren Code gut veranschaulichen. Wir beginnen (in R), indem wir einen guten Pseudozufallszahlengenerator verwenden, um eine Folge von 10.000 Nullen und Einsen zu erstellen:

set.seed(17)
x <- floor(runif(10000, min=0, max=2))

Dies besteht einige grundlegende Zufallszahltests. Zum Beispiel hat ein t-Test zum Vergleichen des Mittelwerts mit einen p-Wert von %, wodurch wir die Hypothese akzeptieren können, dass Nullen und Einsen gleich wahrscheinlich sind.40.091/240.09

Aus diesen Zahlen extrahieren wir eine Teilfolge von aufeinanderfolgenden Werten, beginnend mit dem 5081. Wert:1000

x0 <- x[1:1000 + 5080]

Wenn diese zufällig aussehen sollen, sollten sie auch die gleichen Zufallszahltests bestehen. Testen wir zum Beispiel, ob ihr Mittelwert 1/2 ist:

> t.test(x0-1/2)

    One Sample t-test

data:  x0 - 1/2 
t = 2.6005, df = 999, p-value = 0.009445
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 0.01006167 0.07193833 
sample estimates:
mean of x 
    0.041 

Der niedrige p-Wert (weniger als 1%) deutet stark darauf hin, dass der Mittelwert signifikant größer als . Die kumulierte Summe dieser Teilsequenz weist in der Tat einen starken Aufwärtstrend auf:1/2

> plot(cumsum(x0-1/2))

Zielloser Spaziergang?

Das ist kein zufälliges Verhalten!

Der Vergleich der ursprünglichen Sequenz (als kumulative Summe dargestellt) mit dieser Teilsequenz zeigt, was vor sich geht:

Zielloser Spaziergang

Die lange Sequenz verhält sich in der Tat wie ein zufälliger Gang - wie es sein sollte -, aber die bestimmte Teilsequenz, die ich extrahiert habe, enthält den längsten Anstieg unter allen Teilsequenzen gleicher Länge. Es sieht so aus, als hätte ich auch einige andere Subsequenzen extrahieren können, die ein "nicht zufälliges" Verhalten aufweisen, wie die um zentrierte, bei der ungefähr 20 in einer Reihe erscheinen!9000


Wie diese einfachen Analysen gezeigt haben, kann kein Test "beweisen", dass eine Sequenz zufällig erscheint. Alles, was wir tun können, ist zu testen, ob Sequenzen von den von Zufallssequenzen erwarteten Verhaltensweisen ausreichend abweichen, um den Beweis zu erbringen, dass sie nicht zufällig sind. So funktionieren Batterien von Zufallstests : Sie suchen nach Mustern, die in Zufallszahlenfolgen höchstwahrscheinlich nicht auftreten. Von Zeit zu Zeit lassen sie uns zu dem Schluss kommen, dass eine wirklich zufällige Folge von Zahlen nicht zufällig erscheint: Wir werden sie ablehnen und etwas anderes versuchen.

Langfristig wird jedoch - so wie wir alle tot sind - jeder echte Zufallszahlengenerator jede mögliche Folge von 1000 Ziffern erzeugen , und das unendlich oft. Was uns vor einem logischen Dilemma rettet, ist, dass wir schrecklich lange warten müssen, bis eine solche offensichtliche Aberration auftritt.

whuber
quelle
Vielen Dank! Eine verwandte Frage: Bedeutet Zufälligkeit beim Testen der Zufälligkeit der Pseudozufallszahlen, die mit einigen Methoden erzeugt wurden, eine gleichmäßige Verteilung? Mit anderen Worten, werden Zufallstests nur zum Testen von Gleichverteilungen durchgeführt? Ich habe das gefragt, weil mir diese eher voreingenommenen Verteilungen intuitiv weniger zufällig erscheinen.
Tim
@Tim: Nein, es gibt viele gebräuchliche Tests für die Gaußsche Zufälligkeit, und es sollte möglich sein, Tests für jede Verteilung zu erstellen.
Naught101
1
Tim, jede Verteilung hat eine bestimmte mathematische Beziehung zu einer Gleichverteilung über die Wahrscheinlichkeitsintegraltransformation (und ihre Verallgemeinerung in diskrete und nicht absolut kontinuierliche Verteilungen). Um also die Zufälligkeit allgemein zu verstehen, reicht es aus, gleichmäßige Verteilungen zu verstehen. Diese wiederum können mit unendlichen Folgen von Binärziffern in Beziehung gesetzt werden: Sie repräsentieren reelle Zahlen im Intervall . [0,1)
Whuber
2
Ich kann fast oben auf der Antwort "schauen" und "Whuber" sagen :) Sehr schön!
PhD
2

In diesem Auszug werden die Begriffe "lokale Zufälligkeit" und "globale Zufälligkeit" verwendet, um zu unterscheiden, was mit einer endlichen Anzahl von Stichproben einer Zufallsvariablen und der Wahrscheinlichkeitsverteilung oder -erwartung einer Zufallsvariablen auftreten kann.

Beispiel: Wiederholte Versuche einer Bernoulli-Zufallsvariablen (mit Werten in ) mit der Erwartung ergeben, wenn die Anzahl der Stichproben unendlich ist, den Stichprobenmittelwert . Das heißt, . Dies ergibt sich aus dem Gesetz der großen Zahlen. { 0 , 1 } θ θ lim n 1xi{0,1}θθlimn1ni=1nxi=θ

Bei der Auswertung des Stichprobenmittelwerts für endliche Stichproben erhalten wir jedoch alle Arten von Werten in . Tatsächlich gibt es eine endliche Wahrscheinlichkeit dafür, dass der Mittelwert der Stichprobe in den Bereich für für einen beliebigen Wert von fällt .[ a , b ] 0 a < b 1 θ[0,1][a,b]0a<b1θ

Hier gibt es nichts Neues.

Dieser Auszug scheint jedoch den ziemlich offensichtlichen Punkt zu : Je größer ist, desto wahrscheinlicher ist es, dass das Verhalten "lokal zufällig" aussieht, wobei "lokal zufällig" (fälschlicherweise) so definiert ist, dass es Muster zeigt, die nahe am Mittelwert liegen ( in diesem Beispiel.) n

Daher würde ich nicht zu viele Gehirnzellen verbrennen, wenn ich an diesen Auszug denke. Es ist mathematisch nicht so genau und irreführend über die Natur der Zufälligkeit.

Bearbeiten basierend auf Kommentar: @kjetilbhalvorsen +1 zu Ihrem Kommentar für das historische Wissen. Ich denke jedoch immer noch, dass der Wert dieser Begriffe begrenzt und irreführend ist. Die Tabellen, die Sie beschreiben, scheinen die irreführende Schlussfolgerung zu ziehen, dass kleine Stichproben, die zum Beispiel Stichproben enthalten, weit vom tatsächlichen erwarteten Wert entfernt sind oder möglicherweise eine unwahrscheinliche, aber durchaus mögliche lange Folge von wiederholten Nullen (in meinem Bernoulli-Beispiel) aufweisen weniger Zufälligkeit (indem sie sagen, dass sie diese falsche "lokale Zufälligkeit" nicht aufweisen). Ich kann mir nichts irreführenderes für den angehenden Statistiker vorstellen!

Chris A.
quelle
Obwohl "globale Zufälligkeit" eigenwillig erscheint, hat "lokale Zufälligkeit" eine Vorgeschichte von mindestens 20 Jahren. Siehe zum Beispiel isiweb.ee.ethz.ch/papers/arch/umaure-mass-inspec-1991-1.pdf .
Whuber
Gut, ich stimme zu, aber die Unterscheidung und die Art und Weise, wie sie es verwenden, ist irreführend und ungenau. Wirklich, sie sprechen von low versus large no? nnn
Chris A.
2
Ich erinnere mich, dass ich manchmal Folgendes gelesen habe: In der Zeit, als Leute Bücher mit Tabellen mit "Zufallszahlen" veröffentlichten, die für Simulationen, Experimente usw. verwendet werden sollten, hatten einige davon Teile der Tabellen als für die Verwendung in kleinen Simulationen geeignet markiert (mit der Bezeichnung "lokal") Zufälligkeit ") und andere Teile, die nur für größere Simulationen verwendet werden sollten (mit" globaler Zufälligkeit "). Die Konzepte scheinen also auf etwas Wertvolles hinzuweisen!
kjetil b halvorsen
1
Entschuldigung, ich kann mich nicht erinnern, wo ich das gelesen habe. Aber es ist fast offensichtlich: Abgesehen von den philosophischen Problemen bei der Definition der Zufälligkeit: Wenn Sie in sehr kleinen Simulationen 1000 Zufallszahlen benötigen und Ihr hochwertiger Zufallsgenerator 1000 Nullen liefert, ¿Was machen Sie? Trotz der Tatsache, dass solche Vorkommnisse in einer "wirklich zufälligen" Reihenfolge möglich und notwendig sind, ist Ihre Simulation ruiniert!
kjetil b halvorsen
1
Danke Jungs, ich war vielleicht zu hart in meiner Verurteilung. Ich werde die Sprache ein wenig ändern.
Chris A.
-1

Ich denke, die Autoren des Wikipedia-Beitrags interpretieren die Zufälligkeit falsch. Ja, es kann Strecken geben, die nicht zufällig zu sein scheinen, aber wenn der Prozess, der die Sequenz erstellt hat, wirklich zufällig ist, muss dies auch die Ausgabe sein. Wenn bestimmte Sequenzen nicht zufällig erscheinen, handelt es sich um eine fehlerhafte Wahrnehmung des Lesers (dh Menschen sind darauf ausgelegt, Muster zu finden). Unsere Fähigkeit, den Großen Wagen und Orion usw. am Nachthimmel zu sehen, ist kein Beweis dafür, dass die Muster der Sterne nicht zufällig sind. Ich bin damit einverstanden, dass Zufälligkeit oft nicht zufällig erscheint. Wenn ein Prozess wirklich zufällige Muster für kurze Sequenzen generiert, ist er kein zufälliger Prozess.

Ich glaube nicht, dass sich der Prozess bei unterschiedlichen Stichprobengrößen ändert. Sie erhöhen die Stichprobengröße und die Wahrscheinlichkeit, dass wir eine zufällige Sequenz sehen, die uns nicht zufällig erscheint. Bei einer Wahrscheinlichkeit von 10%, dass wir ein Muster in 20 zufälligen Beobachtungen sehen, würde eine Erhöhung der Gesamtzahl der Beobachtungen auf 10000 die Wahrscheinlichkeit erhöhen, dass wir irgendwo eine Nicht-Zufälligkeit sehen.

P auritus
quelle
2
"Wenn ein Prozess wirklich zufällige Muster für kurze Sequenzen erzeugt, ist er kein zufälliger Prozess", fürchte ich, ist er völlig falsch. Zum Beispiel würden wir bei 100 Flips einer fairen Münze erwarten , sechs Köpfe oder sechs Schwänze in einer Reihe zu beobachten - und das ist ein "wirklich nicht zufälliges Muster für [eine] kurze Sequenz" im Sinne von "Zufall". " Ich vermute, Sie wollten etwas schreiben, das genauer untersucht werden muss, z. B. "all" vor "short sequence".
Whuber
"Ja wirklich?" Ich hätte gedacht, dass wir nicht überrascht sein sollten, wenn man erwartet , dass man Ketten von Schwänzen von einem Zufallszahlengenerator sieht. Warum sollte es nicht zufällig sein? Wenn man einen Zahlengenerator hätte, der 100 Flips ausführt und absichtlich 4 oder mehr Köpfe oder Schwänze in einer Reihe vermeidet, würde er eher zufällig aussehen als ein wirklich zufälliger Prozess, aber tatsächlich wäre er nicht zufällig. Ein naiver Blick auf Zufälligkeit ist das Fehlen aller Muster - aber das wäre kein Zufall.
P auritus
Ihr Kommentar ist richtig, aber die Darlegung in Ihrer Antwort ist in diesem Punkt unklar und sogar widersprüchlich. Überlegen Sie sich, genauer zu erklären, was Sie meinen, indem Sie zum Beispiel "wirklich nicht zufällige Muster für kurze Sequenzen" erzeugen oder was es bedeutet, "Nicht-Zufälligkeit zu sehen".
whuber
Ich sehe keinen Widerspruch. Sie scheinen zu glauben, dass Zufallsgeneratoren nicht zufällige Muster erzeugen. Das ist der Widerspruch. Sie argumentieren, dass wirklich zufällige Prozesse nicht zufällige Beobachtungen erzeugen. Was Sie beschreiben, sind einige, die als "Clustering Illusion" bezeichnet werden. Dabei handelt es sich um die Tendenz, Cluster aus zufälligen Verteilungen falsch wahrzunehmen. Ich sage nur, dass ein Prozess, der nicht zufällige Beobachtungen erzeugt, nicht zufällig ist. Sie argumentieren, dass Sie von einem zufälligen Prozess erwarten, dass er Folgen von nicht zufälligen Beobachtungen erzeugt, aber Sie nennen das nicht zufällig. Klassisches Beispiel für Apophenie.
P auritus
1
Es ist schwer, ein Gespräch mit einem Gesprächspartner zu führen, der seine Position falsch angibt, deshalb werde ich mich aus dieser Position zurückziehen. Es tut uns leid.
Whuber