Statistiken und Big Data

27

Ist eine Interaktion zwischen zwei stetigen Variablen möglich?

Alle meine Variablen sind stetig. Es gibt keine Levels. Ist es möglich, überhaupt eine Interaktion zwischen den Variablen zu

regression modeling interaction

27

Kann AIC zwischen verschiedenen Modelltypen vergleichen?

Ich verwende AIC (Akaikes Informationskriterium), um nichtlineare Modelle in R zu vergleichen. Ist es gültig, die AICs verschiedener Modelltypen zu vergleichen? Insbesondere vergleiche ich ein von glm angepasstes Modell mit einem von glmer (lme4) angepassten Ausdruck für zufällige Effekte. Wenn...

lme4-nlme model-selection aic

27

Wie wird die „variable Wichtigkeit“ bei der Verwendung von CART gemessen / eingestuft? (speziell mit {rpart} von R)

Wenn Sie ein CART-Modell (insbesondere einen Klassifizierungsbaum) mit rpart (in R) erstellen, ist es häufig interessant zu wissen, welche Bedeutung die verschiedenen Variablen haben, die in das Modell eingeführt werden. Meine Frage lautet daher: Welche gängigen Maße gibt es für das Ranking /...

r classification model-selection cart rpart

27

Geht die Korrelation von einer Stationarität der Daten aus?

Die Inter-Market-Analyse ist eine Methode zur Modellierung des Marktverhaltens durch Auffinden von Beziehungen zwischen verschiedenen Märkten. Häufig wird eine Korrelation zwischen zwei Märkten berechnet, z. B. S & P 500 und 30-jährigen US-Treasuries. Diese Berechnungen basieren zumeist auf...

correlation stationarity

27

Ist ein vager Prior dasselbe wie ein nicht informativer Prior?

Dies ist eine Frage zur Terminologie. Ist ein "vager Prior" dasselbe wie ein nicht informativer Prior oder gibt es einen Unterschied zwischen den beiden? Mein Eindruck ist, dass sie gleich sind (von vage und nicht informativ zusammen nachschlagen), aber ich kann nicht sicher

bayesian prior terminology

27

Warum werden Jeffreys Priors als nicht informativ eingestuft?

Stellen Sie sich einen Jeffreys vor, wo , wo die Fisher-Information ist.ichp ( θ ) ∝ | i ( θ ) |----√p(θ)∝|i(θ)|p(\theta) \propto \sqrt{|i(\theta)|}ichii Ich sehe diesen Prior immer wieder als nicht informativen Prior, aber ich habe nie ein Argument dafür gesehen, warum er nicht informativ ist....

bayesian prior

27

STL-Trend von Zeitreihen mit R

Ich bin neu in R und in der Zeitreihenanalyse. Ich versuche den Trend einer langen (40 Jahre) täglichen Temperatur-Zeitreihe zu finden und versuche verschiedene Annäherungen. Erstens handelt es sich nur um eine einfache lineare Regression und zweitens um die saisonale Zerlegung von Zeitreihen nach...

r time-series trend

27

Bedeutung der Wahrscheinlichkeitsnotationen

Was ist der Bedeutungsunterschied zwischen der Notation und P ( z | d , w ), die üblicherweise in vielen Büchern und Veröffentlichungen verwendet werden?P(z;d,w)P(z;d,w)P(z;d,w)P(z|d, W

probability notation

27

Erstellen Sie eine Liste mit Variablennamen in einer for-Schleife und weisen Sie ihnen Werte zu

Ich frage mich, ob es eine einfache Möglichkeit gibt, mit einer for-Schleife eine Liste von Variablen zu erstellen und ihren Wert anzugeben. for(i in 1:3) { noquote(paste("a",i,sep=""))=i } In dem obigen Code, ich versuche zu erstellen a1, a2, a3, die assign zu den Werten von 1, 2, 3....

r

27

Was muss ich auf Normalität prüfen: Rohdaten oder Residuen?

Ich habe gelernt, dass ich nicht die Rohdaten, sondern deren Residuen auf Normalität prüfen muss. Sollte ich Residuen berechnen und dann den Shapiro-Wilk-W-Test durchführen? Werden Residuen wie folgt berechnet: ?Xi−meanXi−meanX_i - \text{mean} Bitte sehen Sie diese vorherige Frage für meine Daten...

normality-assumption residuals assumptions

27

Bedeutung von p-Werten in der Regression

Wenn ich in einigen Softwarepaketen (z. B. Mathematica) eine lineare Regression durchführe, werden den einzelnen Parametern im Modell p-Werte zugeordnet. Zum Beispiel haben die Ergebnisse einer linearen Regression, die ein Ergebnis ergibt, einen p-Wert, der mit a assoziiert ist, und einen mit b...

probability regression

27

Was ist der Unterschied zwischen verallgemeinerten Schätzgleichungen und GLMM?

Ich verwende ein GEE mit 3-Level-Daten, die nicht ausbalanciert sind, und benutze einen Logit-Link. Wie unterscheidet sich dies (in Bezug auf die Schlussfolgerungen, die ich ziehen kann, und die Bedeutung der Koeffizienten) von einem GLM mit gemischten Effekten (GLMM) und einem Logit-Link? Weitere...

logistic mixed-model generalized-linear-model interpretation gee

27

Ist die Kreuzvalidierung ein geeigneter Ersatz für das Validierungsset?

In der Textklassifikation habe ich ein Trainingsset mit ca. 800 Samples und ein Testset mit ca. 150 Samples. Das Test-Set wurde noch nie verwendet und wartet darauf, bis zum Ende verwendet zu werden. Ich verwende das gesamte 800-Muster-Trainingsset mit 10-facher Kreuzvalidierung, während ich...

machine-learning classification cross-validation text-mining

27

Müssen Null- und Alternativhypothesen erschöpfend sein oder nicht?

Ich habe oft Behauptungen gesehen, dass sie erschöpfend sein müssen (die Beispiele in solchen Büchern waren immer so, dass sie es tatsächlich waren), andererseits habe ich auch oft Bücher gesehen, die angaben, dass sie exklusiv sein sollten ( zum Beispiel als μ 1 = μ 2 und H 1 als μ 1 > μ 2 ),...

hypothesis-testing

27

Welches Krankenhaus soll gewählt werden? Einer hat eine höhere Erfolgsquote, der andere eine höhere Gesamterfolgsquote

Ich habe eine Frage zu etwas, was mein Statistiklehrer zu folgendem Problem gesagt hat. Meine Frage bezieht sich nicht einmal auf das Auftreten von Simpsons Paradoxon in dieser Situation. Bei meiner Frage geht es einfach darum, dass mein Professor darauf besteht, dass A) und D) die richtigen...

self-study confounding simpsons-paradox

27

Angemessene Restfreiheitsgrade nach dem Löschen von Begriffen aus einem Modell

Ich denke über die Diskussion um diese Frage und insbesondere über Frank Harrells Kommentar nach, dass die Varianzschätzung in einem reduzierten Modell (dh einer, aus der eine Reihe von erklärenden Variablen getestet und verworfen wurden) Yes allgemeine Freiheitsgrade verwenden sollte . Professor...

r regression model-selection regression-strategies

27

Warum gibt es eine Asymmetrie zwischen dem Trainingsschritt und dem Bewertungsschritt?

Insbesondere in der Verarbeitung natürlicher Sprachen ist bekannt, dass maschinelles Lernen in zwei Schritten ablaufen sollte, einem Trainingsschritt und einem Bewertungsschritt, und sie sollten unterschiedliche Daten verwenden. Warum ist das? Intuitiv hilft dieser Prozess, eine Überanpassung der...

machine-learning cross-validation

27

Bester Banditenalgorithmus?

Der bekannteste Algorithmus für Banditen ist der Upper Confidence Bound (UCB), der diese Klasse von Algorithmen bekannt gemacht hat. Seitdem gehe ich davon aus, dass es jetzt bessere Algorithmen gibt. Was ist der derzeit beste Algorithmus (in Bezug auf empirische Leistung oder theoretische...

machine-learning algorithms theory reinforcement-learning multiarmed-bandit

27

Ist Bleaching immer gut?

Ein üblicher Vorverarbeitungsschritt für maschinelle Lernalgorithmen ist das Aufhellen von Daten. Es scheint, dass es immer gut ist, das Weißmachen durchzuführen, da die Daten dekorreliert werden, was die Modellierung vereinfacht. Wann wird Bleaching nicht empfohlen? Hinweis: Ich beziehe mich...

data-transformation

27

Befehlszeilentool zum Berechnen grundlegender Statistiken für Werteströme [geschlossen]

Gibt es ein Befehlszeilentool, das den Zahlenfluss (im ASCII-Format) von der Standardeingabe akzeptiert und die grundlegenden deskriptiven Statistiken für diesen Fluss liefert, z. B. Min, Max, Durchschnitt, Median, RMS, Quantile usw.? Die Ausgabe kann mit dem nächsten Befehl in der...

descriptive-statistics computational-statistics computing