Statistiken und Big Data

12
Beeinträchtigt ein geringer Trainingsumfang eine SVM?

Ich versuche, Nachrichten mithilfe einer SVM in verschiedene Kategorien zu klassifizieren. Ich habe eine Liste der gewünschten Wörter / Symbole aus dem Trainingsset zusammengestellt. Für jeden Vektor, der eine Nachricht darstellt, setze ich die entsprechende Zeile auf, 1wenn das Wort vorhanden ist:...

12
Analyse der logistischen Regressionskoeffizienten

Hier ist eine Liste der logistischen Regressionskoeffizienten (der erste ist ein Achsenabschnitt) -1059.61966694592 -1.23890500515482 -8.57185269220438 -7.50413155570413 0 1.03152408392552 1.19874787949191 -4.88083274930613 -5.77172565873336 -1.00610998453393 Ich finde es seltsam, wie niedrig...

12
Hierarchisches Bayes'sches Modell (?)

Bitte entschuldigen Sie, dass ich den statistischen Jargon abgeschlachtet habe :) Ich habe hier einige Fragen zu Werbung und Klickraten gefunden. Aber keiner von ihnen hat mir sehr geholfen, meine hierarchische Situation zu verstehen. Es gibt eine verwandte Frage. Handelt es sich bei diesen...

12
Wann sollte man Bootstrap vs. Bayes'sche Technik anwenden?

Ich habe ein ziemlich kompliziertes Problem mit der Entscheidungsanalyse, das Zuverlässigkeitstests beinhaltet, und der logische Ansatz (für mich) scheint die Verwendung von MCMC zur Unterstützung einer Bayes'schen Analyse zu beinhalten. Es wurde jedoch vorgeschlagen, einen Bootstrapping-Ansatz zu...

12
Schätzung der Verteilung anhand von Daten

Ich habe eine Stichprobe von Daten, die Rvon generiert wurden rnorm(50,0,1), daher nehmen die Daten offensichtlich eine normale Verteilung an. Allerdings Rnicht „kennt“ diese verteilungs Informationen über die Daten. Gibt es eine Methode R, mit der sich abschätzen lässt, von welcher Verteilung...

12
Bootstrap, Monte Carlo

Im Rahmen der Hausaufgaben wurde mir folgende Frage gestellt: Entwerfen und implementieren Sie eine Simulationsstudie, um die Leistung des Bootstraps zu untersuchen und 95% -Konfidenzintervalle für den Mittelwert einer univariaten Datenstichprobe zu erhalten. Ihre Implementierung kann in R oder SAS...

12
Korrelierende Volume-Zeitreihen

Betrachten Sie das folgende Diagramm: Die rote Linie (linke Achse) beschreibt das Handelsvolumen einer bestimmten Aktie. Die blaue Linie (rechte Achse) beschreibt das Twitter-Nachrichtenvolumen für diese Aktie. Zum Beispiel wurden am 9. Mai (05-09) ungefähr 1.100 Millionen Trades und 4.000...

12
Wie lässt sich Unsicherheit am besten kommunizieren?

Ein großes Problem bei der Übermittlung der Ergebnisse statistischer Berechnungen an die Medien und die Öffentlichkeit ist die Art und Weise, wie wir Unsicherheit kommunizieren. Sicherlich scheinen die meisten Massenmedien eine harte und schnelle Nummer zu mögen, obwohl Zahlen, außer in einer...