Statistiken und Big Data

15

Zufälliger Wald ist überpassend

Ich versuche, Random Forest Regression zum Erlernen von Scikits zu verwenden. Das Problem ist, dass ich einen sehr hohen Testfehler erhalte: train MSE, 4.64, test MSE: 252.25. So sehen meine Daten aus: (blau: echte Daten, grün: vorhergesagt): Ich benutze 90% für das Training und 10% für den...

regression random-forest scikit-learn

15

Warum sollte ein bestimmtes Maß für den Prognosefehler (z. B. MAD) im Gegensatz zu einem anderen (z. B. MSE) verwendet werden?

MAD = Mittlere absolute Abweichung MSE = Mittlerer quadratischer Fehler Ich habe Vorschläge von verschiedenen Stellen gesehen, dass MSE trotz einiger unerwünschter Eigenschaften verwendet wird (z. B. http://www.stat.nus.edu.sg/~staxyc/T12.pdf , das auf Seite 8 heißt. "Es wird allgemein angenommen,...

forecasting error mse mae

15

Warum stabilisieren wir die Varianz?

Beim Lesen der Kaggle-Essay-Eval-Methode bin ich auf eine varianzstabilisierende Transformation gestoßen . Sie verwenden eine Varianzstabilisierungstransformation, um Kappa-Werte zu transformieren, bevor sie ihren Mittelwert bilden und sie dann zurücktransformieren. Obwohl ich das Wiki über...

variance mathematical-statistics

15

Bedeutung der Ausgabebegriffe im gbm-Paket?

Ich benutze das gbm-Paket zur Klassifizierung. Wie erwartet ist das Ergebnis gut. Aber ich versuche die Ausgabe des Klassifikators zu verstehen. Die Ausgabe enthält fünf Begriffe. `Iter TrainDeviance ValidDeviance StepSize Improve` Könnte jemand die Bedeutung jeden Begriff, vor allem die...

r machine-learning

15

Angabe einer Kovarianzstruktur: Vor- und Nachteile

Was sind die Vorteile der Angabe einer Kovarianzstruktur in einer GLM (anstatt alle nicht diagonalen Einträge in der Kovarianzmatrix als Null zu behandeln)? Abgesehen davon, was man über die Daten weiß, macht man es auch Passform verbessern? Verbesserung der Vorhersagegenauigkeit für ausgelagerte...

generalized-linear-model covariance

15

Wie entspricht die Stichprobenverteilung der Stichprobenmittelwerte dem Bevölkerungsmittelwert?

Ich versuche, Statistiken zu lernen, weil ich feststelle, dass sie so verbreitet sind, dass ich einige Dinge nicht lernen kann, wenn ich sie nicht richtig verstehe. Ich habe Probleme, diesen Begriff einer Stichprobenverteilung der Stichprobenmittel zu verstehen. Ich kann nicht verstehen, wie es...

distributions normal-distribution sampling normality-assumption

15

Ist die Logit-Funktion immer die beste für die Regressionsmodellierung von Binärdaten?

Ich habe über dieses Problem nachgedacht. Die übliche logistische Funktion zum Modellieren von Binärdaten lautet: Die Funktion ist jedoch eine S-förmige Kurve , immer das Beste für die Modellierung der Daten? Vielleicht haben Sie Grund zu der Annahme, dass Ihre Daten nicht der normalen S-förmigen...

logistic references link-function

15

Schätzparameter einer Normalverteilung: Median statt Mittelwert?

Der übliche Ansatz zur Schätzung der Parameter einer Normalverteilung besteht darin, den Mittelwert und die Standardabweichung / Varianz der Stichprobe zu verwenden. Wenn es jedoch einige Ausreißer gibt, sollten der Median und die mediane Abweichung vom Median viel robuster sein, oder? Bei...

normal-distribution estimation outliers robust unbiased-estimator

15

Wie kann man den Poisson-Prozess mit R abschätzen? (Oder: Wie verwende ich das NHPoisson-Paket?)

Ich habe eine Datenbank von Ereignissen (dh eine Variable von Daten) und zugehörigen Kovariaten. Die Ereignisse werden durch den nicht stationären Poisson-Prozess erzeugt, wobei Parameter eine unbekannte (aber möglicherweise lineare) Funktion einiger Kovariaten sind. Ich denke, das NHPoisson-Paket...

r poisson-distribution poisson-process

15

Wie berechnet ggplot Konfidenzintervalle für Regressionen?

Das R-Plot-Paket ggplot2 verfügt über eine großartige Funktion namens stat_smooth zum Plotten einer Regressionslinie (oder -kurve ) mit dem zugehörigen Konfidenzband. Es fällt mir jedoch schwer, genau herauszufinden, wie dieses Konfidenzband für jede Zeit der Regressionsgeraden (oder "Methode")...

r regression confidence-interval ggplot2

15

Kann ich eine Kovarianzmatrix in Unsicherheiten für Variablen umwandeln?

Ich habe ein GPS-Gerät, das eine Rauschmessung über die Kovarianzmatrix ausgibt :ΣΣ\Sigma Σ = ⎡⎣⎢σx xσyxσx zσx yσyyσyzσx zσyzσzz⎤⎦⎥Σ=[σxxσxyσxzσyxσyyσyzσxzσyzσzz]\Sigma = \left[\begin{matrix} \sigma_{xx} & \sigma_{xy} & \sigma_{xz} \\ \sigma_{yx} & \sigma_{yy} & \sigma_{yz} \\ \sigma_{xz} &...

covariance measurement-error uncertainty

15

Abschätzung der Kovarianz-Posterior-Verteilung eines multivariaten Gaußschen

Ich muss die Verteilung eines bivariaten Gaußschen mit wenigen Stichproben "lernen", aber eine gute Hypothese zur vorherigen Verteilung, also möchte ich den Bayes'schen Ansatz verwenden. Ich habe meinen Prior definiert: P(μ)∼N(μ0,Σ0)P(μ)∼N(μ0,Σ0) \mathbf{P}(\mathbf{\mu}) \sim...

distributions bayesian estimation covariance posterior

15

Vergleich von Ranglisten

Angenommen, zwei Gruppen, bestehend aus und jeweils einen Satz von 25 Elementen von den wichtigsten bis zu den unwichtigsten. Wie lassen sich diese Rankings am besten vergleichen?n 2n1n1n_1n2n2n_2 Natürlich ist es möglich, 25 Mann-Whitney-U-Tests durchzuführen, aber dies würde zu 25 zu...

ranking group-differences

15

Welche statistischen Methoden sind archaisch und sollten in Lehrbüchern weggelassen werden? [geschlossen]

Aus heutiger Sicht passt diese Frage nicht zu unserem Q & A-Format. Wir erwarten, dass die Antworten durch Fakten, Referenzen oder Fachwissen gestützt werden, aber diese Frage wird wahrscheinlich Debatten, Argumente, Abstimmungen oder erweiterte Diskussionen hervorrufen. Wenn Sie der Meinung...

references history

15

Warum ist das angepasste R-Quadrat kleiner als das R-Quadrat, wenn das angepasste R-Quadrat das Modell besser vorhersagt?

Soweit ich weiß, erklärt , wie gut das Modell die Beobachtung vorhersagt. Das angepasste berücksichtigt mehr Beobachtungen (oder Freiheitsgrade). Also sagt Adjusted das Modell besser voraus? Warum ist das dann weniger als ? Es scheint, dass es oft mehr sein sollte.R 2 R 2 R

regression r-squared

15

Kanonische Korrelationsanalyse mit Rangkorrelation

Die kanonische Korrelationsanalyse (CCA) zielt darauf ab, die übliche Pearson-Produkt-Moment-Korrelation (dh den linearen Korrelationskoeffizienten) der linearen Kombinationen der beiden Datensätze zu maximieren. Betrachten wir nun die Tatsache, dass dieser Korrelationskoeffizient nur lineare...

multivariate-analysis data-transformation spearman-rho kendall-tau canonical-correlation

15

Cox-Modell vs. logistische Regression

Nehmen wir an, wir haben das folgende Problem: Sagen Sie voraus, welche Kunden in den nächsten 3 Monaten am wahrscheinlichsten aufhören, in unserem Shop einzukaufen. Wir kennen für jeden Kunden den Monat, in dem der Kauf in unserem Shop begonnen hat, und haben darüber hinaus viele...

logistic survival cox-model

15

Wie wählt man den richtigen Optimierungsalgorithmus?

Ich muss das Minimum einer Funktion finden. Wenn ich die Dokumente unter http://docs.scipy.org/doc/scipy/reference/optimize.html lese, sehe ich, dass es mehrere Algorithmen gibt, die dasselbe tun, dh das Minimum finden. Woher weiß ich, welches ich wählen soll? Einige der aufgelisteten...

optimization

15

Unterschied zwischen Randomisierungstest und Permutationstest

In der Literatur werden die Begriffe Randomisierung und Permutation synonym verwendet. Bei vielen Autoren, die "Permutationstests (auch als Randomisierungstests bezeichnet)" oder umgekehrt angeben. Bestenfalls glaube ich, dass der Unterschied subtil ist und in ihren Annahmen über die Daten und...

hypothesis-testing sampling terminology permutation-test

15

Kann Hazard Ratio in Verhältnis der Mediane der Überlebenszeit übersetzt werden?

In einem Artikel, der die Ergebnisse der Überlebensanalyse beschreibt, habe ich eine Aussage gelesen, die besagt, dass man die Hazard Ratio (HR ) mit der folgenden Formel in das Verhältnis der mittleren Überlebenszeiten ( und ) übersetzen kann:M 2M1M1M_1M2M2M_2 HR = M1M2HR=M1M2HR = \frac{M_1}{M_2}...

survival hazard