Statistiken und Big Data

10
Verwirrung in Bezug auf elastisches Netz

Ich habe diesen Artikel über elastisches Netz gelesen. Sie sagen, dass sie ein elastisches Netz verwenden, denn wenn wir nur Lasso verwenden, wird tendenziell nur ein Prädiktor unter den Prädiktoren ausgewählt, die stark korreliert sind. Aber wollen wir das nicht? Ich meine, es erspart uns die Mühe...

10
Ist es sinnvoll, Konfidenzintervalle zu berechnen und Hypothesen zu testen, wenn Daten aus der gesamten Bevölkerung verfügbar sind?

Ist es sinnvoll, Konfidenzintervalle zu berechnen und Hypothesen zu testen, wenn Daten aus der gesamten Bevölkerung verfügbar sind? Meiner Meinung nach lautet die Antwort nein, da wir die wahren Werte der Parameter genau berechnen können. Aber wie hoch ist dann der maximale Anteil an Daten aus der...

10
Ist eine Zwei-Wege-ANOVA angemessen?

Dies ist die Beschreibung meiner Studie. Ich experimentiere mit drei Pflanzen: A, B und C. Diese Pflanzen sollen den Blutzucker bei Diabetikern senken. Ich möchte feststellen, welche dieser drei Pflanzen nach einmaliger Verabreichung an Mäuse einen längeren Einfluss auf die Blutzuckersenkung hat....

10
Log Likelihood für GLM

Im folgenden Code führe ich eine logistische Regression für gruppierte Daten mit glm und "von Hand" mit mle2 durch. Warum gibt mir die logLik-Funktion in R eine Log-Wahrscheinlichkeit logLik (fit.glm) = - 2.336, die sich von der logLik (fit.ml) = - 5.514 unterscheidet, die ich von Hand...

10
PyMC für nichtparametrisches Clustering: Der Dirichlet-Prozess zur Schätzung der Parameter der Gaußschen Mischung kann nicht geclustert werden

Problemeinrichtung Eines der ersten Spielzeugprobleme, auf das ich PyMC anwenden wollte, ist das nichtparametrische Clustering: Modellieren Sie anhand einiger Daten diese als Gaußsche Mischung und lernen Sie die Anzahl der Cluster sowie den Mittelwert und die Kovarianz jedes Clusters. Das meiste,...