Statistiken und Big Data

14
oderMetriken für Clustering?

Verwendet jemand die Metriken L1L1L_1 oder L.5L.5L_.5 für das Clustering und nicht L2L2L_2 ? Über das überraschende Verhalten von Distanzmetriken im hochdimensionalen Raum gaben Aggarwal et al. (2001) an, dass L1L1L_1 istfür hochdimensionale Data-Mining-Anwendungendurchweg vorzuziehen als die...

14
So stimmen Sie die Glättung im mgcv GAM-Modell

Ich versuche herauszufinden, wie die Glättungsparameter in einem mgcv: gam-Modell gesteuert werden. Ich habe eine Binomialvariable, die ich hauptsächlich als Funktion der x- und y-Koordinaten auf einem festen Gitter modellieren möchte, sowie einige andere Variablen mit geringfügigeren Einflüssen....

14
Beispiele für Text Mining mit R (TM-Paket)

Ich verbrachte drei Tage damit, mich mit tmeinem Entwurf eines Freundes zu beschäftigen, in dem er mit UCINET einen Textkorpus erkundete, der Textwolken, Zwei-Modus-Netzwerkgraphen und Einzelwertzerlegung (mit Grafiken, unter Verwendung von Stata) zeigte. Ich habe viele Probleme: Unter Mac OS X...

14
Wie werden zufällige kategoriale Daten generiert?

Angenommen, ich habe eine kategoriale Variable, die die Werte A, B, C und D annehmen kann. Wie kann ich 10000 zufällige Datenpunkte generieren und deren Häufigkeit steuern? Beispielsweise: A = 10% B = 20% C = 65% D = 5% Irgendwelche Ideen, wie ich das machen

14
Wie Levene Testfunktion in R verwenden?

Ich bin ein Neuling in Statistik und R und habe Probleme mit der Verwendung der Levene-Funktion (ich möchte die Varianzgleichheit von zwei Stichproben prüfen). In der Dokumentation steht, dass ich Folgendes ausführen soll: levene.test (y, Gruppe) Aber ich habe keine Ahnung, was ich als y und...

14
Unterschreitet die Maximierung der Genauigkeit bei über- / unterabgetasteten unsymmetrischen Klassen die Minimierung der Fehlklassifizierungskosten?

Zunächst möchte ich einige gängige Layouts beschreiben, die in Data Mining-Büchern verwendet werden, um den Umgang mit unsymmetrischen Datasets zu erläutern . Normalerweise heißt der Hauptabschnitt Unbalanced Datasets und deckt diese beiden Unterabschnitte ab: Cost-Sensitive Classification und...