Als «large-data» getaggte Fragen

12
Hypothesentest mit Big Data

Wie führen Sie Hypothesentests mit Big Data durch? Ich habe das folgende MATLAB-Skript geschrieben, um meine Verwirrung zu betonen. Es werden lediglich zwei Zufallsreihen generiert und eine einfache lineare Regression einer Variablen auf der anderen ausgeführt. Diese Regression wird mehrmals unter...

12
Passgenauigkeit für sehr große Stichproben

Ich sammle jeden Tag sehr große Stichproben (> 1.000.000) von kategorialen Daten und möchte, dass die Daten zwischen den Tagen "signifikant" unterschiedlich aussehen, um Fehler bei der Datenerfassung zu erkennen. Ich dachte, ein guter Fit-Test (insbesondere ein G-Test) wäre eine gute Passform...

12
Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?

Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

10
Ist es sinnvoll, Konfidenzintervalle zu berechnen und Hypothesen zu testen, wenn Daten aus der gesamten Bevölkerung verfügbar sind?

Ist es sinnvoll, Konfidenzintervalle zu berechnen und Hypothesen zu testen, wenn Daten aus der gesamten Bevölkerung verfügbar sind? Meiner Meinung nach lautet die Antwort nein, da wir die wahren Werte der Parameter genau berechnen können. Aber wie hoch ist dann der maximale Anteil an Daten aus der...