Als «large-data» getaggte Fragen

9
Platzsparendes Clustering

Die meisten Clustering-Algorithmen, die ich gesehen habe, beginnen mit der Erstellung von Abständen zwischen allen Punkten, was bei größeren Datensätzen problematisch wird. Gibt es einen, der das nicht tut? Oder ist es eine Art partieller / ungefährer / gestaffelter Ansatz? Welcher...

9
Schätzen der Dimension eines Datensatzes

Ein Kollege für angewandte Statistik hat mir folgendes geschickt: "Ich habe mich gefragt, ob Sie eine Möglichkeit kennen, die wahre Dimension der Domäne einer Funktion herauszufinden. Zum Beispiel ist ein Kreis eine eindimensionale Funktion in einem zweidimensionalen Raum. Wenn ich nicht weiß, wie...

9
Parametrisches, semiparametrisches und nichtparametrisches Bootstrapping für gemischte Modelle

Die folgenden Transplantate stammen aus diesem Artikel . Ich bin ein Neuling im Bootstrap und versuche, das parametrische, semiparametrische und nichtparametrische Bootstrapping-Bootstrapping für ein lineares gemischtes Modell mit R bootPaket zu implementieren. R-Code Hier ist mein RCode:...

8
R als Alternative zu SAS für große Datenmengen

Ich weiß, dass R für die Analyse großer Datenmengen nicht besonders hilfreich ist, da R alle Daten in den Speicher lädt, während SAS eine sequentielle Analyse durchführt. Es gibt jedoch Pakete wie bigmemory, mit denen Benutzer die Analyse großer Datenmengen (statistische Analysen) in R effizienter...

8
Was nützen dichte Matrizen in der Statistik?

OK, ich bin kein Statistiker (nicht einmal in der Nähe). Ich bin ein High Performance Computing-Forscher und wollte ein paar Testfälle für große (größer als 5000 x 5000) dichte Matrizen. Ich hatte hier und an einigen anderen Orten gefragt , aber nie eine Antwort von einem Statistiker erhalten. Ich...

8
Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?

Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly...

8
Sternkoordinaten vs. Hauptkomponentenanalyse

Ich bereite gerade eine Präsentation für einen Universitätskurs in "Visual Data Analysis" vor. Und eines meiner Themen ist die Visualisierung "Star Coordinate". Sternkoordinaten Da Sternkoordinaten eine Transformation hochdimensionaler Daten durchführen und die bekannte PCA-Technik dies auch tut,...