Statistiken und Big Data

13
Ab welchem ​​n werden n-Gramm kontraproduktiv?

Bei der Verarbeitung natürlicher Sprache kann man einen Korpus nehmen und die Wahrscheinlichkeit des Auftretens des nächsten Wortes in einer Folge von n auswerten. n wird normalerweise als 2 oder 3 gewählt (Bigramm und Trigramm). Gibt es einen bekannten Punkt, an dem die Verfolgung der Daten für...

13
Analysieren Sie die Proportionen

Ich habe einen Datensatz mit mehreren Anteilen, die sich zu 1 addieren. Ich bin an der Änderung dieser Anteile entlang eines Verlaufs interessiert (siehe unten für Beispieldaten). gradient <- 1:99 A1 <- gradient * 0.005 A2 <- gradient * 0.004 A3 <- 1 - (A1 + A2) df <-...

13
Halton-Sequenz gegen Sobol-Sequenz?

Aus einer Antwort in einer früheren Frage ging ich auf die Halton-Sequenz ein, um eine Reihe von Vektoren zu erstellen, die einen einheitlichen Probenraum ziemlich gleichmäßig abdecken. Auf der Wikipedia-Seite wird jedoch erwähnt, dass besonders höhere Primzahlen zu Beginn der Serie häufig stark...

13
Problem mit e1071 libsvm?

Ich habe einen Datensatz mit zwei überlappenden Klassen, sieben Punkte in jeder Klasse, Punkte liegen im zweidimensionalen Raum. In R rufe ich svmdas e1071Paket auf, um eine separate Hyperebene für diese Klassen zu erstellen. Ich benutze den folgenden Befehl: svm(x, y, scale = FALSE, type =...

13
Ruby als Statistik-Workbench

Dies ist auch eine Frage, die sehr viel mit Python als Statistik-Workbench und mit Excel als Statistik-Workbench zu tun hat . Ich weiß, es gibt eine große Diskussion über Ruby gegen Python, aber das ist nicht der Punkt in dieser Frage. Ich dachte, dass Ruby, der schneller als Python ist und eine...