Statistiken und Big Data

9

Fisher-Exakttest auf gepaarte Daten

Bei Fällen mit Lungenkrebs und übereinstimmenden Kontrollen (ohne Lungenkrebs) (Übereinstimmung basierend auf Alter, Geschlecht usw.). Um Beweise für die Auswirkung des Rauchens auf Lungenkrebs zu finden, habe ich den genauen Fisher-Test in der Kontingenztabelle verwendet. Dies berücksichtigte...

9

Erfassen CART-Bäume Interaktionen zwischen Prädiktoren?

In diesem Artikel wird behauptet, dass in CART, da bei jedem Schritt eine binäre Aufteilung an einer einzelnen Kovariate durchgeführt wird, alle Aufteilungen orthogonal sind und daher Wechselwirkungen zwischen Kovariaten nicht berücksichtigt werden. Viele sehr ernsthafte Referenzen behaupten jedoch...

machine-learning classification data-mining cart

9

Wie finde und bewerte ich die optimale Diskretisierung für eine kontinuierliche Variable mit dem Kriterium ?

Ich habe einen Datensatz mit kontinuierlicher Variable und einer binären Zielvariablen (0 und 1). Ich muss die kontinuierlichen Variablen (für die logistische Regression) in Bezug auf die Zielvariable und mit der Einschränkung diskretisieren, dass die Beobachtungshäufigkeit in jedem Intervall...

r machine-learning chi-squared discrete-data supervised-learning

9

So finden Sie Gewichte für ein Unähnlichkeitsmaß

Ich möchte Attributgewichte für mein Unähnlichkeitsmaß lernen (ableiten), das ich für das Clustering verwenden kann. Ich habe einige Beispiele von Objektpaaren, die "ähnlich" sind (sich im selben Cluster befinden sollten), sowie einige Beispiele von Objektpaaren, die "nicht ähnlich" sind (sollten...

clustering similarities supervised-learning semi-supervised

9

Out-of-Bag-Fehlerschätzung zum Boosten?

In Random Forest wird jeder Baum parallel auf einer eindeutigen Boostrap-Stichprobe der Daten gezüchtet. Da erwartet wird, dass jede Boostrap-Probe ungefähr 63% der eindeutigen Beobachtungen enthält, bleiben ungefähr 37% der Beobachtungen aus, die zum Testen des Baums verwendet werden können. Nun...

machine-learning cross-validation data-mining random-forest boosting

9

Backtesting oder Kreuzvalidierung, wenn der Modellbildungsprozess interaktiv war

Ich habe einige Vorhersagemodelle, deren Leistung ich zurücktesten möchte (dh ich nehme meinen Datensatz, spule ihn zu einem früheren Zeitpunkt zurück und sehe, wie sich das Modell prospektiv entwickelt hätte). Das Problem ist, dass einige meiner Modelle über einen interaktiven Prozess erstellt...

cross-validation modeling outliers splines overfitting

9

Wie hoch ist bei zwei absorbierenden Markov-Ketten die Wahrscheinlichkeit, dass eine vor der anderen endet?

Ich habe zwei verschiedene Markov-Ketten mit jeweils einem absorbierenden Zustand und einer bekannten Ausgangsposition. Ich möchte die Wahrscheinlichkeit bestimmen, dass Kette 1 in weniger Schritten einen absorbierenden Zustand erreicht als Kette 2. Ich denke, ich kann die Wahrscheinlichkeit...

probability markov-chain transition-matrix

9

Vektorisierung des Kreuzentropieverlustes

Ich habe es mit einem Problem zu tun, das mit dem Finden des Gradienten der Kreuzentropieverlustfunktion für den Parameter θθ\theta wobei: CE(θ)=−∑iyi∗log(y^i)CE(θ)=−∑iyi∗log(y^i)CE(\theta) = -\sum\nolimits_{i}{y_i*log({\hat{y}_{i}})} Wobei y i = s o f t m ein x ( θ i ) und θ i ist ein...

machine-learning neural-networks

9

Warum (und wann) muss man die Belohnungsfunktion aus Stichproben beim Verstärkungslernen lernen?

Beim verstärkten Lernen haben wir eine Belohnungsfunktion, die den Agenten darüber informiert, wie gut seine aktuellen Aktionen und Zustände sind. In einigen allgemeinen Einstellungen ist die Belohnungsfunktion eine Funktion von drei Variablen: Aktueller ZustandS.SS Aktuelle Aktion im aktuellen...

machine-learning reinforcement-learning

9

Abgleichen von Boosted-Regressionsbäumen (BRT), Generalized-Boosted-Modellen (GBM) und Gradienten-Boosting-Maschine (GBM)

Fragen: Was ist der Unterschied zwischen Boosted Regression Tree (BRT) und Generalized Boosted Models (GBM)? Können sie austauschbar verwendet werden? Ist das eine eine bestimmte Form des anderen? Warum verwendete Ridgeway den Ausdruck "Generalized Boosted Regression Models" (GBM), um zu...

machine-learning boosting gbm

9

KNN: 1 nächster Nachbar

Meine Frage bezieht sich auf den 1-nächsten Nachbarn-Klassifikator und auf eine Aussage, die in dem ausgezeichneten Buch Die Elemente des statistischen Lernens von Hastie, Tibshirani und Friedman gemacht wurde. Die Aussage lautet (S. 465, Abschnitt 13.3): "Da nur der Trainingspunkt verwendet...

classification k-nearest-neighbour

9

Kombination mehrerer paralleler MCMC-Ketten zu einer längeren Kette

Nehmen wir an, man hat parallele MCMC-Ketten ausgeführt, in denen jede Kette eingebrannt ist. Die resultierenden Ketten seien mit wobei die Länge jeder Kette danach ist verbrennen in.x ( i ) 1 , … , x ( i ) N.mmmN.x( i )1, … , X.( i )N. für i = 1 , … , m ,x1(i),…,xN(i) for i=1,…,m,...

mcmc parallel-computing

9

Freundliches Tutorial oder Einführung in die Regression mit reduziertem Rang

Ich versuche, Reduced-Rank Regression (RRR) aus den Elementen des statistischen Lernens zu lernen . Ich finde das Schreiben und die Mathematik etwas zu unerschwinglich. Hat jemand von euch eine Ressource / Text / Einführung / Tutorial, die als Einführung freundlicher ist? Zum Beispiel fand ich in...

regression multivariate-analysis references reduced-rank-regression

9

Führen Entscheidungsbäume eine Aufteilung von Knoten durch, indem sie in der Praxis kategoriale Werte in numerische Werte konvertieren?

Verwenden wir in Entscheidungsbäumen bei der Klassifizierung oder Regression nur numerische Werte? Angenommen, ich habe eine kategoriale Spalte Windals Feature. Angenommen , ich habe am 5 Zeilen (Beobachtungen) und die Werte für Windsind [ high, low, high, medium, medium]. Kann ich diese...

machine-learning categorical-data random-forest cart many-categories

9

Wie verwende ich Anova für den Vergleich zweier Modelle?

Wie soll ich das anovaErgebnis beim Vergleich zweier Modelle verstehen ? Beispiel: Res.Df RSS Df Sum of Sq F Pr(>F) 1 9 54.032 2 7 4.632 2 49.4 37.329 0.0001844 *** In der Manpage heißt es: "Berechnen Sie die Analyse von Varianz- (oder Abweichungs-) Tabellen für ein oder mehrere...

r regression anova

9

Warum ist die Rückwärtseliminierung bei multipler Regression gerechtfertigt?

Führt dies nicht zu einer Überanpassung? Wären meine Ergebnisse zuverlässiger, wenn ich als Teil der Analyse ein Klappmesser oder ein Bootstrap-Verfahren hinzufügen

multiple-regression bootstrap reliability overfitting jackknife

9

Warum sind die Bewertungen der Hauptkomponenten nicht korreliert?

Angenommen, ist eine Matrix von mittelzentrierten Daten. Die Matrix ist , hat verschiedene Eigenwerte und Eigenvektoren , ... , die orthogonal sind.AA\mathbf AS=cov(A)S=cov(A)\mathbf S=\text{cov}(\mathbf A)m×mm×mm\times mmmms1s1\mathbf s_1s2s2\mathbf s_2smsm\mathbf s_m Die te Hauptkomponente...

correlation pca linear-algebra

9

Warum muss ich bei der Verwendung von SVMs die Funktionen skalieren?

Gemäß der Dokumentation des StandardScaler- Objekts in scikit-learn: Beispielsweise gehen viele Elemente, die in der Zielfunktion eines Lernalgorithmus verwendet werden (wie der RBF-Kernel von Support Vector Machines oder die L1- und L2-Regularisierer linearer Modelle), davon aus, dass alle...

machine-learning svm standard-deviation mean references

9

Ein seltsamer Schritt auf einem Beweis über die Verteilung quadratischer Formen

Der folgende Satz stammt aus der 7. Ausgabe von " Introduction to Mathematical Statistics " von Hogg, Craig und Mckean und betrifft die notwendige und ausreichende Bedingung für die Unabhängigkeit zweier quadratischer Formen normaler Variablen. Dies ist ein ziemlich langer Auszug, aber ich würde...

self-study mathematical-statistics quadratic-form

9

Sei

Ich lerne gerade selbst in der linearen Modelltheorie und finde es überraschend, dass für einen Zufallsvektor definiert ist , außer der Kovarianzmatrix werden keine weiteren Momente erwähnt.Y = [ y 1 y 2 ⋮ y n ]E [ Y ]E[Y]\mathbb{E}[\mathbf{Y}]Y = ⎡⎣⎢⎢⎢⎢y1y2⋮yn⎤⎦⎥⎥⎥⎥Y=[y1y2⋮yn]\mathbf{Y} =...

self-study moments