Statistiken und Big Data

10
Konfidenzintervall für Chi-Quadrat

Ich versuche eine Lösung zu finden, um zwei "Anpassungsgüte-Chi-Quadrat" -Tests zu vergleichen. Genauer gesagt möchte ich die Ergebnisse zweier unabhängiger Experimente vergleichen. In diesen Experimenten verwendeten die Autoren das Chi-Quadrat der Anpassungsgüte, um zufällige Schätzungen...

10
Automatische Datenbereinigung

Ein häufiges Problem ist, dass ML eine schlechte Datenqualität aufweist: Fehler in Merkmalswerten, falsch klassifizierte Instanzen usw. usw. Eine Möglichkeit, dieses Problem zu beheben, besteht darin, die Daten manuell durchzugehen und zu überprüfen. Gibt es jedoch andere Techniken? (Ich wette, es...

10
Wie groß ist die Wahrscheinlichkeit, dass sich n Personen aus einer Liste von m Personen in einer zufälligen Auswahl von x Personen aus einer Liste von y Personen befinden?

Wenn ich 232 Personen aus einem Pool von 363 ersatzlosen Personen auswähle, wie hoch ist die Wahrscheinlichkeit, dass 2 einer Liste von 12 bestimmten Personen in dieser Auswahl enthalten sind? Dies ist eine zufällige Auslosung für ein Ultra-Rennen, bei dem 363 Teilnehmer für 232 Plätze anwesend...