Statistiken und Big Data

20

Mit welchen Tests bestätige ich, dass die Residuen normal verteilt sind?

Ich habe einige Daten, die vom Zeichnen eines Diagramms von Residuen gegen die Zeit fast normal aussehen, aber ich möchte sicher sein. Wie kann ich auf Normalität der Fehlerreste

hypothesis-testing normal-distribution assumptions

20

Warum wird für zufällige Waldbäume kein Schnitt benötigt?

Breiman sagt, dass die Bäume ohne Beschneiden gewachsen sind. Warum? Ich will damit sagen, dass es einen soliden Grund geben muss, warum die Bäume in zufälligen Wäldern nicht beschnitten werden. Andererseits wird es als sehr wichtig angesehen, einen einzelnen Entscheidungsbaum zu beschneiden, um...

machine-learning

20

libsvm "Maximale Anzahl von Iterationen erreicht" Warnung und Kreuzvalidierung

Ich verwende libsvm im C-SVC-Modus mit einem Polynomkern der Stufe 2 und muss mehrere SVMs trainieren. Jedes Trainingsset enthält 10 Features und 5000 Vektoren. Während des Trainings erhalte ich diese Warnung für die meisten SVMs, die ich trainiere: WARNING: reaching max number of...

machine-learning cross-validation svm regularization libsvm

20

Gepaart gegen ungepaarten T-Test

Angenommen, ich habe 20 Mäuse. Ich paare die Mäuse auf irgendeine Weise, so dass ich 10 Paare bekomme. Für den Zweck dieser Frage könnte es sich um eine zufällige Paarung handeln, ODER es könnte sich um eine sinnvolle Paarung handeln, beispielsweise um den Versuch, Mäuse aus demselben Wurf mit...

t-test paired-data

20

Wie robust ist Pearsons Korrelationskoeffizient gegenüber Verletzungen der Normalität?

Daten für bestimmte Arten von Variablen sind in der Regel nicht normal, wenn sie in bestimmten Bevölkerungsgruppen gemessen werden (z. B. Depressionsniveaus bei einer Population von Menschen mit schwerer Depressionsstörung). Wie robust ist die Teststatistik unter Nichtnormalitätsbedingungen, wenn...

correlation

20

Wie funktioniert eine Poisson-Verteilung bei der Modellierung kontinuierlicher Daten und führt dies zu Informationsverlust?

Eine Mitarbeiterin analysiert einige biologische Daten für ihre Dissertation mit böser Heteroskedastizität (Abbildung unten). Sie analysiert es mit einem gemischten Modell, hat aber immer noch Probleme mit den Residuen. Durch die Protokolltransformation der Antwortvariablen werden die Dinge...

mixed-model poisson-distribution biostatistics

20

Können wir irgendwo in der Natur die Form einer normalen Kurve sehen?

Ich möchte nicht wissen, ob einige Phänomene in der Natur normalverteilt sind, aber ob wir irgendwo die Form einer normalen Kurve sehen können, wie wir es zum Beispiel in der Galton-Schachtel sehen können. Siehe diese Abbildung aus Wikipedia. Beachten Sie, dass viele mathematische Formen oder...

distributions normality-assumption

20

Warum werden Wahrscheinlichkeitsverteilungen mit einer Tilde bezeichnet?

Was bedeutet die Tilde bei der Angabe von Wahrscheinlichkeitsverteilungen? Beispielsweise: Z∼ Normal ( 0 , 1 ) .Z∼Normal(0,1).Z \sim

probability distributions notation

20

Transformation zur Erhöhung der Kurtosis und der Schräglage von normalem Wohnmobil

Ich arbeite an einem Algorithmus, der auf der Tatsache beruht, dass Beobachtungen s normal verteilt sind, und ich möchte die Robustheit des Algorithmus anhand dieser Annahme empirisch testen.YYY Dazu suchte ich nach einer Folge von Transformationen , die die Normalität von Y zunehmend stören würden...

data-transformation normality-assumption skewness kurtosis

20

Werden Zufallsvariablen nur dann korreliert, wenn ihre Ränge korreliert sind?

Angenommen,X,YX,YX,Y sind kontinuierliche Zufallsvariablen mit endlichen Sekundenmomenten. Die Populationsversion von Spearmans Rangkorrelationskoeffizientkann als der Pearson-Produkt-Moment-Koeffizient ρ der Wahrscheinlichkeitsintegraltransformationenund, wobeidie cdf vonund,

correlation pearson-r spearman-rho

20

Warum funktioniert die Backpropagation nicht, wenn Sie die Wertigkeiten mit demselben Wert initialisieren?

Warum funktioniert die Backpropagation nicht, wenn Sie alle Gewichte mit demselben Wert initialisieren (z. B. 0,5), aber wenn Sie Zufallszahlen angeben, funktioniert sie einwandfrei? Sollte der Algorithmus den Fehler nicht berechnen und von dort aus arbeiten, obwohl die Gewichte anfangs gleich...

machine-learning neural-networks backpropagation

20

Fernüberwachung: überwacht, halb überwacht oder beides?

"Fernüberwachung" ist ein Lernschema, bei dem ein Klassifikator anhand eines schwach gekennzeichneten Trainingssatzes gelernt wird (Trainingsdaten werden automatisch anhand von Heuristiken / Regeln gekennzeichnet). Ich denke, dass sowohl beaufsichtigtes Lernen als auch semi-beaufsichtigtes Lernen...

machine-learning data-mining dataset references unsupervised-learning

20

Test auf lineare Trennbarkeit

Gibt es eine Möglichkeit, die lineare Separierbarkeit eines Datasets mit zwei Klassen in hohen Dimensionen zu testen? Meine Merkmalsvektoren sind 40 lang. Ich weiß, dass ich jederzeit logistische Regressionsexperimente durchführen und die Hitrate im Vergleich zur Falschalarmrate bestimmen kann, um...

machine-learning classification

20

Wie interpretiere ich den Intercept-Term in einem GLM?

Ich verwende R und habe meine Daten mit GLM mit Binomial Link analysiert. Ich möchte wissen, was die Bedeutung des Abschnitts in der Ausgabetabelle ist. Der Achsenabschnitt für eines meiner Modelle unterscheidet sich erheblich, die Variable jedoch nicht. Was bedeutet das? Was ist der Schnittpunkt?...

r generalized-linear-model

20

Sandwich Estimator Intuition

Wikipedia und die Vignette des R-Sandwich-Pakets geben gute Informationen über die Annahmen, die OLS-Koeffizienten-Standardfehler stützen, und den mathematischen Hintergrund der Sandwich-Schätzer. Ich bin mir immer noch nicht sicher, wie das Problem der heteroskedastischen Residuen angegangen wird,...

multiple-regression residuals heteroscedasticity robust-standard-error

20

Zusammenhang zwischen Fisher-Metrik und der relativen Entropie

Kann jemand beweist die folgende Verbindung zwischen Fisher Informationen Metrik und der relativen Entropie (oder KL Divergenz) in eine rein mathematischen rigorosen Art und Weise? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel...

mathematical-statistics kullback-leibler fisher-information

20

Was passiert, wenn ich eine quadratische Variable in meine Regression einbeziehe?

Ich beginne mit meiner OLS-Regression: wobei D eine Dummy-Variable ist und die Schätzungen sich von Null mit einem niedrigen p-Wert unterscheiden. Ich führe dann einen Ramsey-RESET-Test durch und stelle fest, dass ich eine falsche Schreibweise der Gleichung habe. Ich beziehe also das Quadrat x...

regression multiple-regression interpretation least-squares polynomial

20

EM-Algorithmus manuell implementiert

Ich möchte den EM-Algorithmus manuell implementieren und ihn dann mit den Ergebnissen des normalmixEMof- mixtoolsPakets vergleichen. Natürlich würde ich mich freuen, wenn beide zu den gleichen Ergebnissen führen würden. Die Hauptreferenz ist Geoffrey McLachlan (2000), Finite Mixture Models . Ich...

r expectation-maximization gaussian-mixture

20

Was ist wiederkehrendes Verstärkungslernen?

Ich bin kürzlich auf das Wort "Recurrent Reinforcement Learning" gestoßen. Ich verstehe, was "Recurrent Neural Network" ist und was "Reinforcement Learning" ist, konnte aber nicht viele Informationen darüber finden, was "Recurrent Reinforcement Learning" ist. Kann mir jemand erklären, was ein...

machine-learning reinforcement-learning

20

Erwarteter Wert und Varianz von log (a)

Ich habe eine Zufallsvariable wobei a normalverteilt . Was kann ich über und sagen ? Eine Annäherung wäre auch hilfreich.N ( μ , σ 2 ) E ( X ) V a r ( X )X(a)=log(a)X(a)=log⁡(a)X(a) = \log(a)N(μ,σ2)N(μ,σ2)\mathcal

normal-distribution mathematical-statistics random-variable lognormal logarithm