Statistiken und Big Data

13
Stand der Technik bei der Deduplizierung

Was sind die neuesten Methoden bei der Deduplizierung von Datensätzen? Die Deduplizierung wird manchmal auch als Datensatzverknüpfung, Entitätsauflösung, Identitätsauflösung, Zusammenführen / Löschen bezeichnet. Ich kenne zum Beispiel CBLOCK [1]. Ich würde mich freuen, wenn die Antworten auch...

13
Warum sind alle bekannten Distributionen unimodal?

Ich kenne keine multimodalen Distributionen. Warum sind alle bekannten Distributionen unimodal? Gibt es eine "berühmte" Distribution, die mehr als einen Modus hat? Natürlich sind Verteilungsmischungen oft multimodal, aber ich würde gerne wissen, ob es "Nicht-Mischungs" -Verteilungen gibt, die mehr...

13
Wie werden PCA-Ladungen interpretiert?

Beim Lesen über PCA bin ich auf die folgende Erklärung gestoßen: Angenommen, wir haben einen Datensatz, in dem jeder Datenpunkt die Ergebnisse eines einzelnen Schülers in einem Mathematiktest, einem Physiktest, einem Leseverständnistest und einem Vokabeltest darstellt. Wir finden die ersten beiden...

13
Intercept Term in der logistischen Regression

Angenommen, wir haben das folgende logistische Regressionsmodell: logit(p)=β0+β1x1+β2x2logit(p)=β0+β1x1+β2x2\text{logit}(p) = \beta_0+\beta_{1}x_{1} + \beta_{2}x_{2} Ist die Wahrscheinlichkeit des Ereignisses, wenn x 1 = 0 und x 2 = 0 ist ? Mit anderen Worten, ist es die Wahrscheinlichkeit des...

13
Ein Regressionsmodell, dessen Antwortvariable der Tag des Jahres ist, an dem (normalerweise) ein jährliches Ereignis auftritt

In diesem speziellen Fall beziehe ich mich auf den Tag, an dem ein See gefriert. Dieses "Ice-On" -Datum tritt nur einmal im Jahr auf, aber manchmal überhaupt nicht (wenn der Winter warm ist). In einem Jahr kann der See an Tag 20 (20. Januar) einfrieren und in einem anderen Jahr kann er überhaupt...