Statistiken und Big Data

23
Statistische Forensik: Benford und darüber hinaus

Welche umfassenden Methoden gibt es, um Betrug, Anomalien, Fudging usw. in wissenschaftlichen Werken von Dritten aufzuspüren? (Ich war durch die kürzliche Affäre mit Marc Hauser motiviert, dies zu erfragen .) Normalerweise wird für Wahl- und Rechnungslegungsbetrug eine Variante von Benfords Gesetz...

23
Was ist der Unterschied zwischen PCA und asymptotischer PCA?

In zwei Beiträgen aus den Jahren 1986 und 1988 schlugen Connor und Korajczyk einen Ansatz zur Modellierung der Anlagenrendite vor. Da diese Zeitreihen in der Regel mehr Vermögenswerte als Beobachtungen über einen bestimmten Zeitraum enthalten, schlugen sie vor, eine PCA für Querschnitts-Kovarianzen...

23
Was ist falsch an diesem "naiven" Mischalgorithmus?

Dies ist eine Folgefrage zu einer Stackoverflow- Frage zum zufälligen Mischen eines Arrays . Es gibt etablierte Algorithmen (wie das Knuth-Fisher-Yates-Shuffle ), mit denen man ein Array mischen sollte, anstatt sich auf "naive" Ad-hoc-Implementierungen zu verlassen. Ich bin jetzt daran interessiert...

23
Warum den Nenner in Bayes 'Theorem auflösen?

(Ich bin ein Neuling in der Statistik. Ich bin Mathematiker und Programmierer und ich versuche, so etwas wie einen naiven Bayes-Spamfilter zu bauen.) Ich habe an vielen Stellen bemerkt, dass die Leute dazu neigen, den Nenner in der Gleichung aus dem Bayes'schen Theorem aufzulösen. Also stattdessen:...

23
Schätzung einer Verteilung basierend auf drei Perzentilen

Mit welchen Methoden kann ich auf eine Verteilung schließen, wenn ich nur drei Perzentile kenne? Ich weiß zum Beispiel, dass in einem bestimmten Datensatz das fünfte Perzentil 8.135, das 50. Perzentil 11.259 und das 95. Perzentil 23.611 ist. Ich möchte in der Lage sein, von jeder anderen Zahl zu...

23
Knoten setzen in natürlichen kubischen Splines in R

Ich habe Daten mit vielen korrelierten Features und möchte zunächst die Features mit einer reibungslosen Basisfunktion reduzieren, bevor ein LDA ausgeführt wird. Ich versuche, natürliche kubische Splines im splinesPaket mit der nsFunktion zu verwenden. Wie ordne ich die Knoten zu? Hier ist der...

23
C ++ - Bibliotheken für das statistische Rechnen

Ich habe einen bestimmten MCMC-Algorithmus, den ich nach C / C ++ portieren möchte. Ein Großteil der teuren Berechnung erfolgt in C bereits über Cython, aber ich möchte, dass der gesamte Sampler in einer kompilierten Sprache geschrieben wird, damit ich nur Wrapper für Python / R / Matlab / whatever...