Statistiken und Big Data

8

Ableiten des K-Mittelwert-Algorithmus als Grenze der Erwartungsmaximierung für Gaußsche Gemische

Christopher Bishop definiert den erwarteten Wert der Likelihood-Funktion für das vollständige Datenprotokoll (dh unter der Annahme, dass wir sowohl die beobachtbaren Daten X als auch die latenten Daten Z erhalten) wie folgt:

8

Manuelle Berechnung des p-Werts für den t-Test: Wie vermeide ich Werte größer als ?

Diese beiden Methoden zur Berechnung des p-Werts sollten äquivalent sein: t.test(rats.drug,mu=1.2)$p.value 2*pt((mean(rats.drug)-1.2)*sqrt(n)/sd(rats.drug),df=n-1) Das Problem bei der zweiten Methode besteht darin, dass das Risiko besteht, dass Werte größer als (tatsächlich bis zu ) erhalten...

r t-test p-value

8

Arbeiten mit dem Bootstrap-Beispiel im Vergleich zum Original-Beispiel

Betrachten Sie eine Stichprobe von reellen Zahlen. Nehmen wir an, wir möchten die zentrale Tendenz der Bevölkerung abschätzen und ein Gefühl für unsere Unsicherheit in Bezug auf diese Schätzung bekommen. Lassen Sie uns die Annahmen über die Bevölkerungsverteilung für einen Moment beiseite legen und...

estimation bootstrap

8

Was sind einige Gründe, warum iterativ neu gewichtete kleinste Quadrate nicht konvergieren würden, wenn sie für die logistische Regression verwendet werden?

Ich habe die Funktion glm.fit in R verwendet, um Parameter an ein logistisches Regressionsmodell anzupassen. Standardmäßig verwendet glm.fit iterativ neu gewichtete kleinste Quadrate, um die Parameter anzupassen. Was sind einige Gründe, warum dieser Algorithmus bei Verwendung für die logistische...

r logistic generalized-linear-model convergence irls

8

Visualisierung und Überzeichnung: Alternative zu Streuungen

Ich habe eine große Menge von Länderdaten, die überfüllt sind (wie Sie unten sehen können), aber ich brauche die Beschriftungen und die Ausreißer - ich habe auch viele Grafiken, daher wäre es mühsam, das Fenster zurückzusetzen und einen falschen Datenpunkt hinzuzufügen für die Ausreißer. Gibt es...

data-visualization

8

Mehrere Vergleiche mit vielen Gruppen

Ich möchte feststellen, ob die Verwendung eines Mehrfachvergleichstests für meine Daten geeignet ist. Ich habe den Kruskal-Wallis-Test verwendet, um festzustellen, ob es Unterschiede in der mittleren Hemmung zwischen verschiedenen Gruppen gibt. Die Analyse ergab, dass es signifikante Unterschiede...

multiple-comparisons post-hoc kruskal-wallis dunn-test

8

Wie man die Quantilfunktion erhält, wenn eine analytische Form der Verteilung nicht bekannt ist

Das Problem kommt von Seite 377-379 dieses [0] Papiers. Betrachten Sie bei einer stetigen Verteilung und einem festen :z ∈ R.FFFz∈Rz∈Rz\in\mathbb{R} Lz(t)=PF(|z−Z|≤t)Lz(t)=PF(|z−Z|≤t)L_z(t)=P_F(|z-Z|\leq t) und H(z)=L−1z(0.5)=medZ∼F|z−Z|H(z)=Lz−1(0.5)=medZ∼F|z−Z|H(z)=L^{-1}_z(0.5)=\underset{Z\sim...

mathematical-statistics quantiles cdf numerics quantile-function

8

Warum werden irrelevante Regressoren in großen Stichproben statistisch signifikant?

Ich versuche, statistische Signifikanz, Effektgrößen und dergleichen besser zu verstehen. Ich habe die Auffassung (vielleicht ist es falsch), dass selbst irrelevante Regressoren in großen Stichproben häufig statistisch signifikant werden . Mit irrelevant meine ich, dass es keine sachliche...

regression statistical-significance effect-size large-data

8

Frage zur Verwendung von EM zur Schätzung der Parameter dieses Modells

Ich versuche, EM zu verstehen und Parameter dieses Modells mit dieser Technik abzuleiten, habe aber Probleme zu verstehen, wie ich anfangen soll: Ich habe also ein gewichtetes lineares Regressionsmodell wie folgt, wobei ich Beobachtungen und die entsprechenden Beobachtungen . Das Modell der...

bayesian expectation-maximization

8

Testen Sie, ob 2 exponentiell verteilte Datensätze unterschiedlich sind

Ich habe 2 exponentiell verteilte Datensätze und möchte sichergehen, dass sie aus unterschiedlichen Verteilungen stammen. Leider zwingt mich ein notwendiger Fehler bei der Erkennung der Daten, alle Daten unter einem bestimmten Schwellenwert zu verwerfen. In jedem Satz habe ich ungefähr 3000...

hypothesis-testing exponential

8

Welche Abweichung verwendet glmnet, um Werte von zu vergleichen ?

Ein Kriterium für die Auswahl des optimalen Wertes von mit einem elastischen Netz oder einer ähnlichen bestraften Regression besteht darin, eine Auftragung der Abweichung gegen den Bereich von und auszuwählen, wenn die Abweichung minimiert ist (oder innerhalb eines Standardfehlers von Minimum).λ λ...

r glmnet

8

Bei negativen AIC-Werten

Meine Frage bezieht sich auf den Thread Negative Werte für AIC im allgemeinen gemischten Modell . Ich bekomme oft negative AIC-Werte von der Software, die ich benutze. Ich merke es am meisten, wenn ich Zeitreihen mache. Aber hier ist was ich nicht verstehe. Bei der Definition des AIC gefällt das A...

aic

8

Das Wahlvorhersagemodell von Nate Silver

Nate Silver war in der Vergangenheit recht erfolgreich darin, die Ergebnisse von US-Wahlen vorherzusagen, was in seinem Buch The Signal and the Noise beschrieben wird . Das Buch enthält einige Beschreibungen des verwendeten Modells, und ein Blogbeitrag von ihm beschreibt das Modell, das für die...

references prediction

8

Haben zwei Verteilungen mit identischen 5-Zahlen-Zusammenfassungen immer die gleiche Form?

Ich weiß, dass wenn ich zwei Verteilungen mit dem gleichen Mittelwert und der gleichen Varianz unterschiedliche Formen haben kann, weil ich ein N (x, s) und ein U (x, s) haben kann. Aber was ist, wenn ihre Min, Q1, Median, Q3 und Max identisch sind? Können die Verteilungen dann anders aussehen oder...

distributions descriptive-statistics

8

Probleme mit der Ausreißererkennung

In einem Blogbeitrag schreibt Andrew Gelman : Die schrittweise Regression ist eines dieser Dinge, wie die Erkennung von Ausreißern und Kreisdiagramme, die bei Nicht-Statistikern beliebt zu sein scheinen, von Statistikern jedoch als Scherz angesehen werden. Ich verstehe den Verweis auf...

dataset outliers quality-control

8

Gibbs Sampler-Übergangskern

Sei die Zielverteilung auf die absolut kontinuierlich zum dimensionalen Lebesgue-Maß geschrieben wird, dh:( R d , B ( R d ) ) dππ\pi(Rd,B(Rd))(Rd,B(Rd))(\mathbb{R}^d,\mathcal{B}(\mathbb{R^d}))ddd & pgr; ( x 1 , . . . , x d ) λ d λ d ( d x 1 , . . . , d x d ) = λ ( d x 1 ) ⋅ ⋅ ⋅ λ ( d x d...

bayesian conditional-probability markov-process gibbs integral

8

Finden Sie die Verteilung und transformieren Sie sie in die Normalverteilung

Ich habe Daten, die beschreiben, wie oft ein Ereignis während einer Stunde stattfindet ("Anzahl pro Stunde", nph) und wie lange die Ereignisse dauern ("Dauer in Sekunden pro Stunde", dph). Dies sind die Originaldaten: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008,...

normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

8

Ist der Wilcoxon-Rang-Summen-Test der richtige Test, um festzustellen, ob sich die Gesamtspenden unterscheiden?

Hintergrund: Meine Software bittet Benutzer um optionale Spenden in beliebiger Höhe. Ich habe Testspendenanfragen unter den Benutzern aufgeteilt, um den besten Weg zu finden, um zu fragen: 50% erhalten Anforderungsversion 1, 50% erhalten Anforderungsversion 2, und wir sehen, welche besser ist. Fast...

r p-value wilcoxon-mann-whitney permutation-test ab-test

8

Gibt es eine Möglichkeit, Saisonalität bei Regressionskoeffizienten zuzulassen?

Angenommen, ich habe eine Zeitreihe, G t , und eine Kovariate B t . Ich möchte die Beziehung zwischen ihnen durch das ARMA-Modell finden: G t = Z t + β 0 + β 1 B t wobei der Rest Z t einem ARMA-Prozess folgt. Das Problem ist: Ich weiß mit Sicherheit, dass β 0 und β 1 mit der Jahreszeit variieren....

time-series correlation econometrics arima time-varying-covariate

8

Aktualisierung der Verzerrung mit RBMs (Restricted Boltzmann Machines)

Ich bin sehr neu in RBMs und versuche jetzt, ein RBM-Programm zu schreiben. Entschuldigung, wenn dies eine dumme Frage ist und / oder hier bereits beantwortet wurde. Ich habe einige Artikel online gelesen und hier Fragen gestellt, aber ich kann nichts darüber finden , wie die Verzerrungen (oder...

deep-learning rbm deep-belief-networks