Statistiken und Big Data

8

Warum gibt es beim Q-Learning (Bestärkungslernen) keine Übergangswahrscheinlichkeit?

Unser Ziel beim Bestärkungslernen ist es, die Zustandswertfunktion oder die Aktionswertfunktion zu optimieren, die wie folgt definiert sind: Vπs=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V.sπ=∑p(s'|s,π(s))[r(s'|s,π(s))+γV.π(s')]]=E.π[r(s'|s,ein)+γV.π(s')|s0=s]]V^{\pi}_s = \sum...

reinforcement-learning q-learning

8

Buch über Statistiken, die leichter sind als akademische

Weihnachten steht vor der Tür und ich möchte ein Geschenk zum Thema Statistik machen. Der Empfänger kaufte und mochte How to Not Be Wrong von Jordan Ellenberg (übrigens, ich mag dieses Buch auch). Er mochte auch The Signal und The Noise , obwohl er es ein bisschen leicht in Mathe fand. Daher suche...

references

8

Verwendung der segmentierten linearen Regression als Beweis für die Grenze der menschlichen Lebensdauer

Nature veröffentlichte in diesem Jahr das folgende Papier: Hinweise auf eine Begrenzung der menschlichen Lebensdauer 1 , in denen die Autoren argumentieren , dass "die Ergebnisse stark darauf hindeuten, dass die maximale Lebensdauer des Menschen festgelegt ist und natürlichen Einschränkungen...

regression segmented-regression

8

Optimierung mit orthogonalen Einschränkungen

Ich arbeite an Computer Vision und muss eine Zielfunktion optimieren, die Matrix beinhaltet XXX und Matrix XXX ist eine orthogonale Matrix. maximize f(X)maximize f(X)maximize \ \ f(X) s.t XTX=Is.t XTX=I s.t \ \ X^T X=I Wo IIIist die Einheitsmatrix. Ich lese gerade eine Zeitung und sie...

optimization orthogonal

8

Control Function Approach und Bootstrap

Nehmen wir an, ich habe Querschnittsdaten zu , , (siehe unten für , , ).yyyx1x1x_1x2x2x_2yyyx1x1x_1x2x2x_2 Ich möchte die Auswirkung der Variablen und und ihre Wechselwirkung ( ) auf die Variable Verwendung des Kontrollfunktionsansatzes abschätzen , und höchstwahrscheinlich sind und endogen. Ich...

econometrics bootstrap instrumental-variables resampling errors-in-variables

8

Logistische Regression: Unterschiedliche Formeln zwischen den Kursen?

Neu im statistischen und maschinellen Lernen und in einigen Online-Kursen. Ich versuche, die logistische Regression genauer zu verstehen, und habe einen Unterschied in der Formel zwischen dem Andrew Ng-Kurs und dem statistischen Stanford-Lernkurs festgestellt. Unten poste ich ein Linkbild zu beiden...

regression machine-learning logistic

8

Compressed Sensing-Beziehung zur L1-Regularisierung

Ich verstehe , dass die Drucksensor sparsamsten Lösung findet wobei x ∈ R D , A ∈ R k × D und y ∈ R k , k < < D .y=Axy=Axy = Axx∈RDx∈RDx \in \mathbb{R}^DA∈Rk×DA∈Rk×DA \in \mathbb{R}^{k \times D}y∈Rky∈Rky \in \mathbb{R}^{k}k<<Dk<<Dk

lasso sparse

8

Wie ist die Verteilung der Summe der quadratischen Chi-Quadrat-Zufallsvariablen?

Wie wäre die Verteilung der folgenden Gleichung: y= a2+ 2 a d+ d2y=a2+2ad+d2y = a^2 + 2ad + d^2 Dabei sind und unabhängige nicht zentrale Chi-Quadrat-Zufallsvariablen mit Freiheitsgraden.d 2 M.einaaddd2 M.2M2 \textbf{M} OBS.: Die RVs, die sowohl als auch erzeugen, haben und , sagen wir .d μ = 0 σ 2...

distributions chi-squared pdf

8

Quantile Regression vs OLS für Homoskedastizität

Ich habe eine Frage zum Steigungskoeffizienten von OLS im Vergleich zu dem für die Quantilregression, wenn homoskedastische Fehlerterme auftreten. Das Bevölkerungsmodell könnte folgendermaßen aussehen: yich=β0+β1xich+uichyich=β0+β1xich+uichy_i = \beta_0 + \beta_{1}x_i + u_i wobei iid...

regression least-squares quantile-regression

8

Wie interpretiere ich den Plot von cv.glmnet ()?

Ich führte Lasso durch und ließ dann eine einmalige Kreuzvalidierung aus cv<-cv.glmnet(df, df$Price, nfolds = 1500) Wenn ich einen Lebenslauf zeichne, erhalte ich Folgendes: Mir ist auch aufgefallen, dass ich 2 verschiedene Lambdas bekomme: lambda.minundlambda.1se Was ist der Unterschied...

r cross-validation interpretation lasso

8

Welche Varianzschätzung soll für einen Wald-Test verwendet werden?

Ich habe die folgende Rechtfertigung für den Wald-Test der Nullhypothese für einen skalaren Parameter . Wenn die MLE für , die aus einer unabhängigen Stichprobe der Größe geschätzt wird , haben wir unter der Nullhypothese in Verteilung als , wobei die erwartete Information für eine einzelne...

hypothesis-testing maximum-likelihood

8

Wie erhalte ich optimale Hyperparameter nach verschachtelter Kreuzvalidierung?

Wenn wir einen großen Datensatz haben, können wir ihn im Allgemeinen in (1) Training, (2) Validierung und (3) Test aufteilen. Wir verwenden die Validierung, um die besten Hyperparameter bei der Kreuzvalidierung zu identifizieren (z. B. C in SVM), und trainieren dann das Modell unter Verwendung der...

machine-learning cross-validation scikit-learn hyperparameter optimization

8

Konfidenzintervall für xgb-Prognose

Experten! Vielleicht wissen Sie, wie man das Konfidenzintervall für xgboost berechnet? Eine klassische Formel mit T-Verteilung kann nicht helfen, da meine Daten nicht normal verteilt sind. Oder spielt das keine Rolle? Wenn Sie Literatur vorschlagen, ist dies sehr nützlich, aber auch Ansätze in R...

confidence-interval xgboost

8

Bedeutung der Quadratwurzel von Kovarianz- / Präzisionsmatrizen

Sagen X∈RnX∈RnX \in \mathbb{R}^nist eine Zufallsvariable mit der Kovarianz . Einträge der Kovarianzmatrix sind per Definition Kovarianzen: Es ist auch bekannt, dass Einträge mit der Genauigkeit erfüllen: wobei die rechte Seite die Kovarianz von wobei von allen anderen Variablen abhängig...

interpretation covariance covariance-matrix partial-correlation precision

8

Seltsames Muster bei der Schätzung des Standardabweichungs-Konfidenzintervalls über Bootstrapping

Ich wollte das Konfidenzintervall für die Standardabweichung für einige Daten schätzen. Der R-Code sieht wie folgt aus: library(boot) sd_boot <- function (x, ind) { res <- sd(x$ReadyChange[ind], na.rm = TRUE) return(res) } data_boot <- boot::boot(data, statistic = sd_boot, R =...

r confidence-interval standard-deviation bootstrap

8

Monotones maschinelles Lernen

Ich habe eine binäre Klassifikation ( überwachtes Lernen) Problem, in dem alle meine Funktionen boolean sind mit folgenden Wendung: Ich mag einen Klassifikator lernen , dass ist monoton . Mit anderen Worten, wenn Sie eine Teilmenge von Merkmalen von 0 auf 1 ändern, sollte die Ausgabe des...

machine-learning binary-data supervised-learning

8

Beziehen von auf für Positiv, Erhöhend und Konkav

Die Ankunft von Photonen an einem Pixel in einem Bildsensor ist eine Poisson-verteilte Zufallsvariable, so dass die Eingabe als Poisson rv X \ sim \ mathrm {Poisson} (\ lambda) modelliert werden kann X∼Poisson(λ)X∼Poisson(λ)X\sim \mathrm{Poisson}(\lambda). Da die Eingabe Poisson ist, sind der...

variance poisson-distribution probability-inequalities convex

8

Beibehalten von Kommentaren zu Diagrammen für die explorative Datenanalyse

Bei der Durchführung explorativer Datenanalysen drucke ich häufig die Grafiken aus und schreibe Kommentare / Anmerkungen usw. auf. Haben die Leute Vorschläge für eine bessere elektronische Methodik? Ich interessiere mich besonders für Python / R. Ich bin auf der Suche nach etwas 'Schnellem (und...

data-visualization eda project-management

8

Berechnung der Aktualisierung des Akteursgradienten im DDPG-Algorithmus (Deep Deterministic Policy Gradient)

Diese Frage bezieht sich auf das Deepmind-Papier zu DDPG: https://arxiv.org/pdf/1509.02971v5.pdf . Die meisten (alle?) Implementierungen des DDPG-Algorithmus, die ich gesehen habe, berechnen die Gradientenaktualisierung für das Akteursnetzwerk durch

machine-learning neural-networks deep-learning reinforcement-learning

8

Kovarianz im Gaußschen Prozess

Ich bin ein wenig verwirrt über die Formel zur Berechnung der Kovarianz im Gaußschen Prozess (das Hinzufügen von Varianz verwirrt mich immer, da es nicht immer explizit bezeichnet wird). Der Grund für die Verwirrung ist, dass die Formeln in Mustererkennung und maschinellem Lernen von Bishop...

machine-learning covariance covariance-matrix kernel-trick gaussian-process