Statistiken und Big Data

25

Unabhängige Variable = Zufällige Variable?

Ich bin etwas verwirrt, wenn eine unabhängige Variable (auch Prädiktor oder Feature genannt) in einem statistischen Modell, z. B. das in linearer Regression , eine Zufallsvariable ist.XXXY=β0+β1XY=β0+β1XY=\beta_0+\beta_1

25

Stimmt es, dass Bayes'sche Methoden nicht überanstrengen?

Stimmt es, dass Bayes'sche Methoden nicht überanstrengen? (Ich habe einige Artikel und Tutorials gesehen, die diese Behauptung aufstellten.) Wenn wir beispielsweise einen Gaußschen Prozess auf MNIST anwenden (handschriftliche Ziffernklassifizierung), ihn aber nur als einzelnes Sample anzeigen,...

bayesian nonparametric gaussian-process overfitting misspecification

25

Ist ein überhöhtes Modell unbedingt unbrauchbar?

Angenommen, ein Modell hat eine Genauigkeit von 100% bei den Trainingsdaten, jedoch eine Genauigkeit von 70% bei den Testdaten. Stimmt das folgende Argument für dieses Modell? Es ist offensichtlich, dass es sich um ein überarbeitetes Modell handelt. Die Testgenauigkeit kann durch Reduzieren der...

model accuracy overfitting

25

Was sind die Vorteile der Wasserstein-Metrik gegenüber der Kullback-Leibler-Divergenz?

Was ist der praktische Unterschied zwischen der Wasserstein-Metrik und der Kullback-Leibler-Divergenz ? Die Wasserstein-Metrik wird auch als Erdbewegungsdistanz bezeichnet . Aus Wikipedia: Wasserstein-Metrik (oder Vaserstein-Metrik) ist eine Abstandsfunktion, die zwischen

distributions kullback-leibler metric wasserstein

25

Warum nicht einfach die neuronalen Netze entleeren und tiefes Lernen? [geschlossen]

Geschlossen . Diese Frage ist meinungsbasiert . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage, damit sie mit Fakten und Zitaten beantwortet werden kann, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 2 Jahren . Grundlegendes...

machine-learning neural-networks svm deep-learning

25

Warum ist es so wichtig, prinzipielle und mathematische Theorien für maschinelles Lernen zu haben?

Ich habe mich gefragt, warum es so wichtig ist, prinzipielles / theoretisches maschinelles Lernen zu haben. Aus einer persönlichen Perspektive als Mensch kann ich verstehen, warum prinzipielles maschinelles Lernen wichtig wäre: Menschen mögen es zu verstehen, was sie tun, wir finden Schönheit und...

machine-learning neural-networks conv-neural-network theory

25

Ist ein „Hürdenmodell“ wirklich ein Modell? Oder nur zwei separate, sequentielle Modelle?

Betrachten Sie ein Hürdenmodell, das die Zähldaten yvon einem normalen Prädiktor vorhersagt x: set.seed(1839) # simulate poisson with many zeros x <- rnorm(100) e <- rnorm(100) y <- rpois(100, exp(-1.5 + x + e)) # how many zeroes? table(y == 0) FALSE TRUE 31 69 In diesem Fall habe ich...

r count-data zero-inflation

25

Zeigt der Gradient in Stochastic Gradient Descent (SGD) bei konvexen Problemen immer auf den globalen Extremwert?

Bei einer konvexen Kostenfunktion, bei der SGD für die Optimierung verwendet wird, haben wir zu einem bestimmten Zeitpunkt während des Optimierungsprozesses einen Gradienten (Vektor). Meine Frage ist, angesichts des Punktes auf der Konvexen, zeigt der Gradient nur in die Richtung, in die die...

neural-networks optimization gradient-descent sgd convex

25

Warum funktioniert der Kolmogorov-Smirnov-Test?

Wenn ich über den 2-Stichproben-KS-Test lese, verstehe ich genau, was er tut, aber ich verstehe nicht, warum er funktioniert . Mit anderen Worten, ich kann alle Schritte ausführen, um die empirischen Verteilungsfunktionen zu berechnen, die maximale Differenz zwischen den beiden zu ermitteln, die...

distributions statistical-significance nonparametric kolmogorov-smirnov

25

Haben Fehlerbalken für Wahrscheinlichkeiten eine Bedeutung?

Die Leute sagen oft, dass ein Ereignis eine Chance von 50-60% hat. Manchmal sehe ich sogar Leute, die explizite Fehlerbalken für Wahrscheinlichkeitszuweisungen anzeigen. Haben diese Aussagen irgendeine Bedeutung oder handelt es sich nur um eine sprachliche Unbehaglichkeit bei der Auswahl einer...

probability error

25

Wann ist der Ansatz von Fisher, mehr Daten zu sammeln, sinnvoll?

Ich zitiere Gungs großartige Antwort Angeblich hat sich ein Forscher einmal mit "nicht signifikanten" Ergebnissen an Fisher gewandt und ihn gefragt, was er tun soll, und Fisher sagte: "Geh und hol mehr Daten." Aus der Sicht von Neyman-Pearson ist dies offensichtliches Hacking. Gibt es jedoch einen...

hypothesis-testing p-value intuition philosophical

24

Korrigieren von p-Werten für mehrere Tests, bei denen Tests korreliert sind (Genetik)

Ich habe p-Werte aus vielen Tests und möchte wissen, ob es nach der Korrektur für mehrere Tests tatsächlich etwas Bedeutendes gibt. Die Komplikation: Meine Tests sind nicht unabhängig. Die Methode, über die ich nachdenke (eine Variante von Fisher's Product Method, Zaykin et al., Genet Epidemiol ,...

correlation multiple-comparisons statistical-significance genetics

24

Ökonometrie-Lehrbücher?

Welche guten ökonometrischen Lehrbücher würden Sie empfehlen? Bearbeiten: Es gibt eine ganze Reihe von Büchern mit unterschiedlichen mathematischen Kenntnissen. Es wäre gut, eine Vorstellung davon zu bekommen, wie technisch das von Ihnen empfohlene Buch

econometrics references

24

Algorithmus zur dynamischen Überwachung von Quantilen

Ich möchte das Quantil einiger Daten schätzen. Die Daten sind so groß, dass sie nicht im Speicher gespeichert werden können. Und Daten sind nicht statisch, es kommen immer neue Daten. Kennt jemand einen Algorithmus zur Überwachung der Quantile der bisher beobachteten Daten mit sehr begrenztem...

algorithms quantiles

24

Gleichungen in den Nachrichten: Übersetzen eines mehrstufigen Modells für ein allgemeines Publikum

Die New York Times kommentiert das Bewertungssystem für Lehrkräfte mit Mehrwert, das verwendet wird, um Pädagogen in New York City Feedback zu geben. Die lede ist die Gleichung zur Berechnung der Punktzahlen - ohne Kontext dargestellt. Die rhetorische Strategie scheint Einschüchterung durch...

regression multilevel-analysis statistics-in-media

24

Warum ist die Voreingenommenheit betroffen, wenn eine klinische Studie frühzeitig abgebrochen wird?

Eine Zwischenanalyse ist eine Analyse der Daten zu einem oder mehreren Zeitpunkten vor dem offiziellen Abschluss der Studie mit der Absicht, z. B. die Studie möglicherweise vorzeitig zu beenden. Laut Piantadosi, S. ( Klinische Studien - eine methodologische Perspektive ): " Die Schätzung eines...

clinical-trials bias

24

Sanity Check: Wie tief kann ein p-Wert gehen?

Ich verwende einen ranksum Test den Median von zwei Proben (zum Vergleich ) und haben festgestellt , dass sie mit signifikant verschieden sind: . Sollte ich einem so kleinen Wert gegenüber misstrauisch sein oder sollte ich ihn der hohen statistischen Leistung zuschreiben, die mit einer sehr großen...

hypothesis-testing p-value sample-size power

24

Können nicht-zufällige Stichproben mit statistischen Standardtests analysiert werden?

Viele klinische Studien basieren auf nicht zufälligen Stichproben. Die meisten Standardtests (z. B. t-Tests, ANOVA, lineare Regression, logistische Regression) basieren jedoch auf der Annahme, dass Stichproben "Zufallszahlen" enthalten. Sind die Ergebnisse gültig, wenn diese nicht-zufälligen...

sampling randomness

24

Post-hoc-Test nach ANOVA mit wiederholten Messungen mit R

Ich habe eine ANOVA mit wiederholten Messungen in R wie folgt durchgeführt: aov_velocity = aov(Velocity ~ Material + Error(Subject/(Material)), data=scrd) summary(aov_velocity) Mit welcher Syntax in R kann nach einer ANOVA mit wiederholten Messungen ein Post-Hoc-Test durchgeführt werden? Wäre...

r anova repeated-measures post-hoc contrasts

24

Warum geben lme und aov bei ANOVA mit wiederholten Messungen in R unterschiedliche Ergebnisse zurück?

Ich versuche, von der Verwendung des ezPakets zu lmeANOVA für wiederholte Messungen überzugehen (da ich hoffe, dass ich benutzerdefinierte Kontraste verwenden kann lme). Den Ratschlägen dieses Blogposts folgend, konnte ich dasselbe Modell mit sowohl aov(als auch auf ezAnfrage) als auch einrichten...

r anova mixed-model repeated-measures lme4-nlme