Statistiken und Big Data

10

Wie kann ich die räumliche Kovarianz in einem linearen Modell berücksichtigen?

Hintergrund Ich habe Daten aus einer Feldstudie, in der es vier Behandlungsstufen und sechs Wiederholungen in jedem von zwei Blöcken gibt. (4x6x2 = 48 Beobachtungen) Die Blöcke sind ungefähr 1 Meile voneinander entfernt, und innerhalb der Blöcke gibt es ein Raster von 42, 2 mx 4 m großen...

r spatial linear-model covariance

10

Statistische Ausbildung von Kindern in verschiedenen Ländern?

Ich bin interessiert zu wissen, wie viel Statistik Kinder in verschiedenen Ländern der Welt lernen. Könnten Sie bitte Daten / Links vorschlagen, die Aufschluss darüber geben, was in dieser Hinsicht geschieht? Ich werde anfangen. Israel: Die Schüler, die mehr oder weniger fortgeschrittenes...

dataset teaching

10

Markowitz-Portfolio mittlere Varianzoptimierung in R.

Ich habe 5 Schwellenmarkt-Gesamtrendite-Serien für Schwellenländer, für die ich zukünftige Renditen für einen Zeitraum (1 Jahr) prognostiziere. Ich möchte ein für die Markowitz-Mittelwertvarianz optimiertes Portfolio der 5er-Serie unter Verwendung historischer Varianzen und Kovarianzen (1) und...

r

10

Links schief gegen symmetrische Verteilung beobachtet

Das ist für mich ziemlich schwer zu beschreiben, aber ich werde versuchen, mein Problem verständlich zu machen. Zuerst muss man wissen, dass ich bisher eine sehr einfache lineare Regression durchgeführt habe. Bevor ich den Koeffizienten schätzte, beobachtete ich die Verteilung meines . Es ist...

regression residuals skewness

10

Empfohlenes Verfahren zur Faktoranalyse dichotomer Daten mit R.

Ich muss eine Faktorenanalyse für einen Datensatz durchführen, der aus dichotomen Variablen besteht (0 = Ja, 1 = Nein), und ich weiß nicht, ob ich auf dem richtigen Weg bin. Mit tetrachoric()Ich erstelle ich eine Korrelationsmatrix, auf der ich laufe fa(data,factors=1). Das Ergebnis ist ziemlich...

r factor-analysis psychometrics binary-data

10

Längsschnittdaten: Zeitreihen, wiederholte Messungen oder etwas anderes?

Im Klartext: Ich habe ein multiples Regressions- oder ANOVA-Modell, aber die Antwortvariable für jedes Individuum ist eine krummlinige Funktion der Zeit. Wie kann ich feststellen, welche der Variablen auf der rechten Seite für signifikante Unterschiede in den Formen oder vertikalen Versätzen der...

regression time-series mixed-model repeated-measures panel-data

10

Beste Möglichkeit, mit einer R-Sitzung in der Cloud zu interagieren

Gesperrt . Diese Frage und ihre Antworten sind gesperrt, da die Frage nicht zum Thema gehört, aber historische Bedeutung hat. Derzeit werden keine neuen Antworten oder Interaktionen akzeptiert. Ich habe R auf Amazon EC2 mit einer modifizierten Version des Bioconductor...

r

10

Gibt an, ob ein Offset in einer Poisson-Regression verwendet werden soll, wenn die von Hockeyspielern erzielten Karriereziele insgesamt prognostiziert werden

Ich habe eine Frage, ob ich einen Offset verwenden soll oder nicht. Nehmen Sie ein sehr einfaches Modell an, in dem Sie die (Gesamt-) Anzahl der Tore im Hockey beschreiben möchten. Sie haben also Tore, die Anzahl der gespielten Spiele und eine Dummy-Variable "Stürmer", die gleich 1 ist, wenn der...

r regression poisson-distribution generalized-linear-model count-data

10

Gründe für die Verwendung von AUC?

Insbesondere auf der computerwissenschaftlich orientierten Seite der Literatur zum maschinellen Lernen ist die AUC (Fläche unter der Kennlinie des Empfängeroperators) ein beliebtes Kriterium für die Bewertung von Klassifikatoren. Was sind die Gründe für die Verwendung der AUC? Gibt es...

machine-learning roc

10

Was ist der Unterschied zwischen ITT und ATE?

Ich habe Probleme, die verschiedenen Schätzer zu verstehen, die für eine Folgenabschätzung verwendet werden können. Ich weiß, dass der Intention-to-Treat-Schätzer (ITT) Unterschiede zwischen berechtigten Personen ohne das Programm und berechtigten Personen mit dem Programm vergleicht, unabhängig...

experiment-design epidemiology

10

So schätzen Sie Parameter für einen Kalman-Filter

In einer früheren Frage habe ich nach der Anpassung von Verteilungen an einige nicht-Gaußsche empirische Daten gefragt. Es wurde mir offline vorgeschlagen, die Annahme zu versuchen, dass die Daten Gauß'sch sind, und zuerst einen Kalman-Filter anzupassen. Entscheiden Sie dann abhängig von den...

kalman-filter

10

Randomisierte Trace-Technik

Ich habe die folgende randomisierte Trace-Technik in M. Seeger kennengelernt : „Aktualisierungen mit niedrigem Rang für die Cholesky-Zerlegung“, University of California in Berkeley, Tech. Rep, 2007. tr(A)=E[xTAx]tr⁡(A)=E[xTAx]\operatorname{tr}(\mathbf{A}) = {E[\mathbf{x}^T \mathbf{A}...

normal-distribution matlab

10

Gute Literatur zur Kreuzvalidierung

Kennt jemand ein gutes Buch / eine gute Webseite, um die Techniken der Kreuzvalidierung zu

references cross-validation

10

Schnelle Berechnung / Schätzung eines linearen Systems mit niedrigem Rang

Lineare Gleichungssysteme sind in der Computerstatistik allgegenwärtig. Ein spezielles System, auf das ich gestoßen bin (z. B. in der Faktoranalyse), ist das System Ax=bAx=bAx=b wobei Hier ist eine Diagonalmatrix mit einer streng positiven Diagonale, ist eine (mit ) symmetrische positive...

factor-analysis matrix computational-statistics matrix-decomposition matrix-inverse

10

Kann ich die Gültigkeit zuvor angegebener Daten testen?

Problem Ich schreibe eine R-Funktion, die eine Bayes'sche Analyse durchführt, um eine posteriore Dichte bei einem informierten Prior und Daten zu schätzen. Ich möchte, dass die Funktion eine Warnung sendet, wenn der Benutzer den vorherigen überdenken muss. In dieser Frage möchte ich lernen, wie man...

distributions probability bayesian

10

Gibt es einen Anderson-Darling-Fit-Test für zwei Datensätze?

Ich weiß, dass ad.test () zum Testen der Normalität verwendet werden kann. Ist es möglich, ad.test zu erhalten, um die Verteilungen aus zwei Datenproben zu vergleichen? x <- rnorm(1000) y <- rgev(2000) ad.test(x,y) Wie kann ich den Anderson-Darling-Test an 2 Proben

r goodness-of-fit

10

Gutes Buch über den theoretischen Ansatz zur Statistik

Als ich vor 10 Jahren als Student Kurse in theoretischer Statistik belegte, verwendeten wir Modern Mathematical Statistics von Dudewicz und Mishra. Ich beziehe mich jetzt auf das Buch und werde daran erinnert, dass einige der Codebeispiele für eine IBM 370 in Montage sind. Ich bin zwar urig, aber...

references

10

Wie generieren Sie ROC-Kurven für eine einmalige Kreuzvalidierung?

Bei der Durchführung einer 5-fachen Kreuzvalidierung (zum Beispiel) ist es typisch, eine separate ROC-Kurve für jede der 5-fachen und häufig eine mittlere ROC-Kurve mit Standard zu berechnen. dev. als Kurvendicke dargestellt. Für die LOO-Kreuzvalidierung, bei der nur ein einziger Testdatenpunkt in...

cross-validation roc

10

Softwarepaket zur Lösung der linearen Regression der L-Unendlichkeitsnorm

Gibt es ein Softwarepaket zur Lösung der linearen Regression mit dem Ziel, die L-Unendlichkeitsnorm zu

regression

10

Warum geben Demografen Raten pro 100.000 Menschen an?

Es scheint universell, dass demografische Statistiken in Bezug auf 100.000 Einwohner pro Jahr angegeben werden. Zum Beispiel Selbstmordraten, Mordraten, behinderungsbereinigtes Lebensjahr, die Liste geht weiter. Warum? Wenn wir über Chemie sprechen, sind Teile pro Million (ppm) üblich. Warum wird...

demography units