Statistiken und Big Data

18

Wann sollten Sie SARSA vs. Q Learning wählen?

SARSA und Q Learning sind beide Verstärkungslernalgorithmen, die auf ähnliche Weise funktionieren. Der auffälligste Unterschied ist, dass SARSA in der Politik ist, während Q Learning nicht in der Politik ist. Die Update-Regeln lauten wie folgt: Q Lernen: Q ( st, eint) ← Q ( st, eint) + α [ rt + 1+...

reinforcement-learning

18

Ist es sinnvoll, die logistische Regression mit binärem Ergebnis und Prädiktor zu verwenden?

Ich habe eine binäre Ergebnisvariable {0,1} und eine Prädiktorvariable {0,1}. Ich bin der Meinung, dass es keinen Sinn macht, logistisch zu arbeiten, wenn ich nicht andere Variablen einbeziehe und die Odds Ratio berechne. Würde die Berechnung der Wahrscheinlichkeit bei einem binären Prädiktor nicht...

r regression probability logistic odds-ratio

18

Kann eine hintere Wahrscheinlichkeit> 1 sein?

In Bayes Formel: P(x|a)=P(a|x)P(x)P(a)P(x|a)=P(a|x)P(x)P(a)P(x|a) = \frac{P(a|x) P(x)}{P(a)} Kann die hintere Wahrscheinlichkeit 1 überschreiten?P(x|a)P(x|a)P(x|a) Ich denke, es ist möglich, wenn zum Beispiel angenommen wird, dass und undP ( a ) < P ( x ) < 1 P ( a ) / P ( x ) < P ( a | x...

probability bayesian conditional-probability

18

Konvergiert die Normalverteilung zu einer gleichmäßigen Verteilung, wenn die Standardabweichung unendlich wird?

Konvergiert die Normalverteilung zu einer bestimmten Verteilung, wenn die Standardabweichung grenzenlos wächst? es scheint mir, dass das pdf wie eine gleichmäßige Verteilung mit Grenzen aussieht, die durch [−2σ,2σ][-2σ,2σ][-2 \sigma, 2 \sigma] . Ist das

normal-distribution convergence

18

Ist es möglich, die Vorhersage von Zeitreihen zu automatisieren?

Ich möchte einen Algorithmus entwickeln, der in der Lage ist, beliebige Zeitreihen zu analysieren und "automatisch" die beste traditionelle / statistische Prognosemethode (und ihre Parameter) für die analysierten Zeitreihendaten auszuwählen. Wäre es möglich so etwas zu machen? Wenn ja, können Sie...

time-series forecasting python

18

Wie kann man Daten simulieren, um statistisch signifikant zu sein?

Ich bin in der 10. Klasse und möchte Daten für ein Projekt auf einer Messe für maschinelles Lernen simulieren. Das endgültige Modell wird für Patientendaten verwendet und sagt die Korrelation zwischen bestimmten Zeiten der Woche und den Auswirkungen voraus, die dies auf die Medikamenteneinhaltung...

machine-learning statistical-significance t-test python simulation

18

Sind MCMC ohne Speicher?

Ich versuche zu verstehen, was Markov-Kette Monte Carlo (MCMC) von der französischen Wikipedia-Seite sind. Sie sagen, "dass die Markov-Ketten-Monte-Carlo-Methoden darin bestehen, einen Vektor xichxichx_ {i} nur aus den Vektordaten xi - 1xich-1x_ {i-1} erzeugen, es ist daher ein Prozess" ohne...

mcmc

18

Intuitive Erklärung der Funktionsweise von UMAP im Vergleich zu t-SNE

Ich habe einen Doktortitel in Molekularbiologie. Meine Studien haben vor kurzem begonnen, hochdimensionale Datenanalysen zu beinhalten. Ich hatte die Idee, wie t-SNE funktioniert (dank eines StatQuest-Videos auf YouTube ), kann mich aber nicht um UMAP kümmern (ich habe mir den Vortrag des...

dimensionality-reduction intuition tsne

18

Zeichnen Sie ganze Zahlen unabhängig und gleichmäßig zufällig von 1 bis mit fairem d6?

Ich möchte ganze Zahlen von 1 bis zu einem bestimmten zeichnen, indem ich eine Reihe von fairen sechsseitigen Würfeln würfle (d6). Eine gute Antwort erklärt, warum seine Methode einheitliche und unabhängige ganze Zahlen erzeugt.NNN Als anschauliches Beispiel wäre es hilfreich zu erläutern, wie eine...

probability random-generation uniform dice

18

Ist zufälliger Wald für die Regression eine "wahre" Regression?

Zufällige Wälder werden für die Regression verwendet. Soweit ich weiß, weisen sie jedoch jedem Blatt einen durchschnittlichen Zielwert zu. Da es in jedem Baum nur begrenzte Blätter gibt, gibt es nur bestimmte Werte, die das Ziel mit unserem Regressionsmodell erreichen kann. Ist es also nicht nur...

regression random-forest cart

18

Leidet LASSO an den gleichen Problemen wie die schrittweise Regression?

Stufenweise algorithmische Variablenauswahlmethoden neigen dazu, Modelle auszuwählen, die mehr oder weniger jede Schätzung in Regressionsmodellen beeinflussen ( s und ihre SEs, p- Werte, F- Statistiken usw.), und schließen mit etwa der gleichen Wahrscheinlichkeit echte Prädiktoren aus wie schließen...

regression feature-selection lasso regression-strategies stepwise-regression

18

Warum verwenden wir die t-Verteilung nicht, um ein Konfidenzintervall für eine Proportion zu erstellen?

Um das Konfidenzintervall (CI) für den Mittelwert mit unbekannter Populationsstandardabweichung (SD) zu berechnen, schätzen wir die Populationsstandardabweichung unter Verwendung der t-Verteilung. Bemerkenswerterweise ist CI=X¯±Z95%σX¯CI=X¯±Z95%σX¯CI=\bar{X} \pm Z_{95\% }\sigma_{\bar X} wobei...

normal-distribution confidence-interval sampling t-distribution

18

Mathematische / algorithmische Definition für Überanpassung

Gibt es eine mathematische oder algorithmische Definition von Überanpassung? Oft werden als Definitionen das klassische 2D-Diagramm von Punkten angegeben, bei dem eine Linie durch jeden einzelnen Punkt verläuft und die Validierungsverlustkurve plötzlich ansteigt. Aber gibt es eine mathematisch...

mathematical-statistics optimization overfitting

18

Wann wurde MCMC alltäglich?

Weiß jemand, in welchem Jahr MCMC alltäglich wurde (dh eine beliebte Methode für Bayes'sche Inferenz)? Ein Link zur Anzahl der im Laufe der Zeit veröffentlichten MCMC (Journal) -Artikel wäre besonders

bayesian mcmc history

17

Was ist der einfachste Weg, um Plots in Publikationsqualität unter Linux zu erstellen?

Wir können davon ausgehen, dass wir eine CSV-Datei haben und ein sehr einfaches Liniendiagramm mit mehreren Linien auf einem Plot und einer einfachen Legende

data-visualization

17

Poisson-Regression bei großen Datenmengen: Ist es falsch, die Maßeinheit zu ändern?

Aufgrund der Fakultät in einer Poisson-Verteilung wird es unpraktisch, Poisson-Modelle (beispielsweise unter Verwendung der maximalen Wahrscheinlichkeit) zu schätzen, wenn die Beobachtungen groß sind. Wenn ich zum Beispiel versuche, ein Modell zu schätzen, um die Anzahl der Selbstmorde in einem...

modeling poisson-distribution large-data

17

Beste Bücher für eine Einführung in die statistische Datenanalyse?

Verschlossen . Diese Frage und ihre Antworten sind gesperrt, da die Frage nicht zum Thema gehört, aber von historischer Bedeutung ist. Derzeit werden keine neuen Antworten oder Interaktionen akzeptiert. Ich habe dieses Buch gekauft: So messen Sie alles: Ermitteln des...

machine-learning bayesian references

17

Robuster T-Test für den Mittelwert

Ich versuche, die Null gegen die lokale Alternative E [ X ] > 0 für eine Zufallsvariable X zu testen, die einem leichten bis mittleren Versatz und einer Kurtosis der Zufallsvariablen unterliegt. Gemäß den Vorschlägen von Wilcox in "Einführung in die robuste Schätzung und das Testen von...

hypothesis-testing t-test finance robust

17

Welche Vor- und Nachteile hat die Verwendung der Logrank-Methode im Vergleich zur Mantel-Haenszel-Methode für die Berechnung des Hazard Ratio in der Überlebensanalyse?

Eine Möglichkeit, den Vergleich zweier Überlebenskurven zusammenzufassen, ist die Berechnung der Hazard Ratio (HR). Es gibt (mindestens) zwei Methoden, um diesen Wert zu berechnen. Logrank-Methode. Berechnen Sie im Rahmen der Kaplan-Meier-Berechnungen die Anzahl der beobachteten Ereignisse...

survival hazard

17

Faktoranalyse von Fragebögen aus Likert-Items

Ich habe Gegenstände aus psychometrischer Sicht analysiert. Aber jetzt versuche ich, andere Arten von Fragen zu Motivation und anderen Themen zu analysieren. Diese Fragen beziehen sich alle auf Likert-Skalen. Mein erster Gedanke war, die Faktorenanalyse zu verwenden, da angenommen wird, dass die...

factor-analysis scales psychometrics likert psychology