Statistiken und Big Data

19

Beispiel einer Verteilung, bei der ein großer Stichprobenumfang für den zentralen Grenzwertsatz erforderlich ist

Einige Bücher geben an, dass eine Stichprobengröße von 30 oder höher erforderlich ist, damit der zentrale Grenzwertsatz eine gute Näherung für ergibt . X¯X¯\bar{X} Ich weiß, dass dies nicht für alle Distributionen ausreicht. Ich möchte einige Beispiele für Verteilungen sehen, bei denen selbst bei...

19

Warum überhaupt ANOVA verwenden, anstatt direkt in Post-Hoc- oder geplante Vergleichstests einzusteigen?

Was bringt es Ihnen, wenn Sie einen solchen ANOVA-Test in einer Situation zwischen Gruppen durchführen? Was tun Sie als Erstes nach dem Hoc-Test (Bonferroni, Šidák usw.) oder bei geplanten Vergleichstests? Warum nicht den ANOVA-Schritt komplett überspringen? Ich stelle fest, dass in einer solchen...

hypothesis-testing anova multiple-comparisons post-hoc

19

P-Werte für "multinom" in R abrufen (nnet-Paket)

Wie erhalte ich p-Werte mit der multinomFunktion von nnetpackage in R? Ich habe einen Datensatz, der aus "Pathologie-Scores" (Abwesend, Mild, Schwerwiegend) als Ergebnisvariable und zwei Haupteffekten besteht: Alter (zwei Faktoren: zwanzig / dreißig Tage) und Behandlungsgruppe (vier Faktoren:...

r regression p-value multinomial

19

Wie finde ich Werte, die nicht in statistischen Tabellen angegeben (interpoliert) sind?

Häufig verwenden die Benutzer Programme zum Abrufen von p-Werten, manchmal muss jedoch - aus welchen Gründen auch immer - ein kritischer Wert aus einer Reihe von Tabellen abgerufen werden. Wie erhalte ich bei einer statistischen Tabelle mit einer begrenzten Anzahl von Signifikanzniveaus und einer...

hypothesis-testing statistical-significance chi-squared interpolation tables

19

Ist in der Bayes'schen Statistik eine Leistungsanalyse erforderlich?

Ich habe in letzter Zeit die Bayes'sche Sichtweise der klassischen Statistik untersucht. Nachdem ich über den Bayes-Faktor gelesen hatte, fragte ich mich, ob in dieser Statistikansicht eine Leistungsanalyse erforderlich ist. Mein Hauptgrund für diese Frage ist, dass der Bayes-Faktor offenbar nur...

bayesian power-analysis

19

Zufälliger Wald ist überpassend?

Ich experimentiere mit Scikit-Learn in zufälligen Wäldern und erhalte großartige Ergebnisse mit meinem Trainingssatz, aber relativ schlechte Ergebnisse mit meinem Testsatz ... Hier ist das Problem (inspiriert vom Poker), das ich zu lösen versuche: Mit den Hole Cards von Spieler A, den Hole Cards...

classification random-forest scikit-learn

19

Caret und Koeffizienten (glmnet)

Ich möchte Caret verwenden, um Rückschlüsse auf einen bestimmten Datensatz zu ziehen. Ist es möglich, Folgendes zu tun: Erzeugt Koeffizienten eines Glmnet-Modells, das ich in Caret trainiert habe. Ich möchte glmnet verwenden, da ich glaube, dass glm es nicht hat. Gibt es eine andere Metrik als...

caret glmnet

19

Wie visualisiere ich eine 3D-Dichtefunktion?

Wie lässt sich eine 3D-Dichtefunktion am besten grafisch darstellen? Wie möchte ich mir vorstellen?z= fX, Y( x , y)z=fX,Y.(x,y)z=f_{X,Y}(x,y) Nicht notwendig, aber RCode dafür wäre

r data-visualization methodology

19

Wie wird die Anpassung eines mit lme4 (> 1.0) ausgestatteten binomialen GLMM bewertet?

Ich besitze ein GLMM mit einer Binomialverteilung und einer Logit-Link-Funktion und habe das Gefühl, dass ein wichtiger Aspekt der Daten im Modell nicht gut dargestellt wird. Um dies zu testen, möchte ich wissen, ob die Daten durch eine lineare Funktion auf der Logit-Skala gut beschrieben werden....

binomial residuals glmm lme4-nlme

19

Wenn ein analytischer Jacobian verfügbar ist, ist es besser, den Hessischen durch oder durch endliche Differenzen des Jacobian anzunähern?

Angenommen, ich berechne einige Modellparameter, um die Summe der quadratischen Residuen zu minimieren, und gehe davon aus, dass meine Fehler Gaußsch sind. Mein Modell erzeugt analytische Ableitungen, sodass der Optimierer keine endlichen Differenzen verwenden muss. Sobald die Anpassung...

standard-error fitting

19

Bootstrapping - Muss ich zuerst Ausreißer entfernen?

Wir haben einen Split-Test für eine neue Produktfunktion durchgeführt und möchten messen, ob die Umsatzsteigerung erheblich ist. Unsere Beobachtungen sind definitiv nicht normal verteilt (die meisten unserer Benutzer geben nichts aus, und innerhalb derer, die dies tun, ist es stark verzerrt in...

bootstrap outliers

19

Schätzen der wichtigsten Features in einer k-means-Clusterpartition

Gibt es eine Möglichkeit zu bestimmen, welche Merkmale / Variablen des Datensatzes innerhalb einer k-means Cluster-Lösung am wichtigsten / dominantesten

machine-learning clustering k-means importance

19

Wie "steuern" Sie einen Faktor / eine Variable?

Meines Erachtens kann "Kontrolle" in der Statistik zwei Bedeutungen haben. Kontrollgruppe: In einem Experiment wird das Mitglied der Kontrollgruppe nicht behandelt. Bsp .: Placebo vs Droge: Sie geben Drogen an eine Gruppe und nicht an die andere (Kontrolle), was auch als "kontrolliertes Experiment"...

regression self-study anova experiment-design controlling-for-a-variable

19

Beziehung zwischen Kammregression und PCA-Regression

Ich erinnere mich , im Web habe irgendwo gelesen, die eine Verbindung zwischen Ridge - Regression (mit ℓ2ℓ2\ell_2 Regularisierung) und PCA Regression: bei der Verwendung von ℓ2ℓ2\ell_2 -regularized Regression mit Hyper λλ\lambda , wenn λ→0λ→0\lambda \to 0 , dann ist die Regression auf dem Entfernen...

regression pca regularization ridge-regression

19

GEE: Auswahl der richtigen Korrelationsstruktur

Ich bin ein Epidemiologe, der versucht, GEEs zu verstehen, um eine Kohortenstudie richtig zu analysieren (unter Verwendung der Poisson-Regression mit einem Log-Link, um das relative Risiko abzuschätzen). Ich habe ein paar Fragen zur "funktionierenden Korrelation", die ich von einem Fachmann klären...

gee

19

Ist ein gewichtetes

Ich habe ein robustes lineares Modell Rmit MM-Gewichten unter Verwendung des rlm()im MASS-Paket enthaltenen Modells geschätzt . `R`` liefert keinen Wert für das Modell, aber ich hätte gerne einen, wenn es sich um eine aussagekräftige Größe handelt. Ich bin auch daran interessiert zu wissen, ob es...

r goodness-of-fit r-squared robust rlm

19

Hat Differentialgeometrie etwas mit Statistik zu tun?

Ich mache einen Master in Statistik und mir wird geraten, Differentialgeometrie zu lernen. Ich würde mich über statistische Anwendungen für die Differentialgeometrie sehr freuen, da dies mich motivieren würde. Kennt jemand Anwendungen für Differentialgeometrie in der

mathematical-statistics information-geometry

19

Wie verwendet die logistische Regression die Binomialverteilung?

Ich versuche zu verstehen, wie die logistische Regression die Binomialverteilung verwendet. Angenommen, ich untersuche den Erfolg von Nestern bei Vögeln. Die Wahrscheinlichkeit, dass ein Nest erfolgreich ist, beträgt 0,6. Mit der Binomialverteilung kann ich die Wahrscheinlichkeit für r Erfolge...

logistic binomial

19

Berechnen und zeichnen Sie die LDA-Entscheidungsgrenze

Ich habe eine grafische Darstellung der linearen Diskriminanzanalyse (LDA) mit Entscheidungsgrenzen aus den Elementen des statistischen Lernens gesehen : Ich verstehe, dass Daten auf einen unterdimensionalen Unterraum projiziert werden. Ich möchte jedoch wissen, wie wir die Entscheidungsgrenzen in...

r references discriminant-analysis

19

Bedeutung eines neuronalen Netzwerks als Black-Box?

Ich höre oft Leute, die über neuronale Netze als eine Art Black-Box sprechen, die Sie nicht verstehen, was sie tun oder was sie bedeuten. Ich kann eigentlich nicht verstehen, was sie damit meinen! Wenn Sie verstehen, wie Backpropagation funktioniert, wie ist es dann eine Blackbox? Bedeuten sie,...

machine-learning neural-networks