Statistiken und Big Data

15

Interpretation von log-transformierten Prädiktoren in der logistischen Regression

Einer der Prädiktoren in meinem Logistikmodell wurde logtransformiert. Wie interpretieren Sie den geschätzten Koeffizienten des logarithmisch transformierten Prädiktors und wie berechnen Sie den Einfluss dieses Prädiktors auf die Odds

logistic

15

Ist es in Ordnung, Manhattan-Distanz mit der Cluster-Verknüpfung von Ward in hierarchischen Clustern zu verwenden?

Ich verwende hierarchisches Clustering, um Zeitreihendaten zu analysieren. Mein Code wird mit der Mathematica- Funktion implementiert DirectAgglomerate[...], die unter Berücksichtigung der folgenden Eingaben hierarchische Cluster generiert: eine Distanzmatrix D Der Name der Methode, die zur...

clustering distance-functions ward

15

Implementiert GSVD alle linearen multivariaten Techniken?

Ich bin auf den Artikel von Hervé Abdi über generalisierte SVD gestoßen. Der Autor erwähnte: Die generalisierte SVD (GSVD) zerlegt eine rechteckige Matrix und berücksichtigt Einschränkungen, die den Zeilen und Spalten der Matrix auferlegt sind. Die GSVD liefert eine gewichtete verallgemeinerte...

multivariate-analysis svd

15

Wie zeichnet man die Datenausgabe des Clusters?

Ich habe versucht, eine Reihe von Daten (eine Reihe von Markierungen) zu gruppieren und habe 2 Cluster erhalten. Ich möchte es grafisch darstellen. Etwas verwirrt über die Darstellung, da ich die (x, y) Koordinaten nicht habe. Suchen Sie auch nach der MATLAB / Python-Funktion, um dies zu tun....

clustering data-visualization python

15

Wie zeichnet man eine Ellipse aus Eigenwerten und Eigenvektoren in R? [geschlossen]

Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen im vergangenen Jahr . Könnte sich jemand einen R- Code einfallen lassen, um eine Ellipse...

r multivariate-analysis matrix matrix-decomposition

15

Was sind die Unterschiede zwischen „Mixed Effects Modeling“ und „Latent Growth Modeling“?

Ich kenne mich mit Mixed-Effects-Modellen (MEM) aus, aber ein Kollege hat mich kürzlich gefragt, wie es sich mit latenten Wachstumsmodellen (LGM) vergleichen lässt. Ich habe ein bisschen gegoogelt, und es scheint, dass LGM eine Variante der Strukturgleichungsmodellierung ist, die auf Situationen...

mixed-model panel-data

15

Wann sollte ich * nicht * zulassen, dass ein fester Effekt in einem Modell mit gemischten Effekten über die Ebenen eines zufälligen Effekts variiert?

Bei einer vorhergesagten Variablen (P), einem Zufallseffekt (R) und einem festen Effekt (F) könnte man zwei * Modelle mit gemischten Effekten ( lme4- Syntax) anpassen : m1 = lmer( P ~ (1|R) + F ) m2 = lmer( P ~ (1+F|R) + F) Soweit ich weiß, ist das zweite Modell dasjenige, bei dem der festgelegte...

mixed-model

15

Kostenloses öffentliches Datenhosting? [geschlossen]

Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie zum Thema passt für Kreuz Validated. Geschlossen vor 4 Jahren . Ich habe stündliche und...

dataset

15

Logistische Regression mit niedriger Ereignisrate anwenden

Ich habe einen Datensatz, in dem die Ereignisrate sehr niedrig ist (40.000 von 12⋅10512⋅10512\cdot10^5 ). Ich wende hier eine logistische Regression an. Ich hatte eine Diskussion mit jemandem, bei der sich herausstellte, dass eine logistische Regression keine gute Verwirrungsmatrix für solche Daten...

logistic

15

So berechnen Sie die Varianz einer Variablenpartition

Ich führe ein Experiment durch, bei dem ich (unabhängige) Samples parallel sammle, ich berechne die Varianz jeder Gruppe von Samples und jetzt möchte ich dann alle kombinieren, um die Gesamtvarianz aller Samples zu finden. Es fällt mir schwer, eine Ableitung dafür zu finden, da ich mir der...

variance

15

Optimale Elfmeterauswahl für Lasso

Gibt es analytische Ergebnisse oder experimentelle Arbeiten zur optimalen Wahl des Koeffizienten für den Strafzeitpunkt ? ℓ1ℓ1\ell_1Mit optimal meine ich einen Parameter, der die Wahrscheinlichkeit der Auswahl des besten Modells maximiert oder den erwarteten Verlust minimiert. Ich frage, weil es...

model-selection lasso shrinkage

15

So verwenden Sie keine Statistiken

Dies ist eine Art offene Frage, aber ich möchte klar sein. Bei einer ausreichenden Bevölkerungszahl können Sie möglicherweise etwas lernen (dies ist der offene Teil), aber was auch immer Sie über Ihre Bevölkerungszahl erfahren, wann ist dies jemals auf ein Mitglied der Bevölkerung...

teaching validity

15

Wie funktioniert die Quantilnormalisierung?

In Genexpressionsstudien mit Microarrays müssen Intensitätsdaten normalisiert werden, damit Intensitäten zwischen Individuen und Genen verglichen werden können. Konzeptionell und algorithmisch funktioniert die "Quantil-Normalisierung" und wie würden Sie dies einem Nicht-Statistiker...

genetics normalization microarray

15

Welche Vor- und Nachteile hat das Lernen einer Verteilung algorithmisch (Simulationen) gegenüber mathematisch?

Welche Vor- und Nachteile hat es, die Eigenschaften einer Verteilung algorithmisch (über Computersimulationen) im Vergleich zu mathematisch zu lernen? Es scheint, dass Computersimulationen eine alternative Lernmethode sein können, insbesondere für diejenigen neuen Schüler, die sich nicht stark in...

distributions algorithms teaching

15

Warum ist der Mann-Whitney-U-Test signifikant, wenn die Mediane gleich sind?

Ich habe Ergebnisse aus einem Mann-Whitney-Rangtest erhalten, die ich nicht verstehe. Der Median der 2 Populationen ist identisch (6.9). Die oberen und unteren Quantile jeder Population sind: 6,64 & 7,2 6,60 & 7,1 Der aus dem Vergleich dieser Populationen resultierende p-Wert beträgt 0,007....

nonparametric median ranks wilcoxon-mann-whitney

15

Was könnte der Grund für die Verwendung der Quadratwurzel-Transformation für Daten sein?

Gibt es irgendeinen Grund dafür, die Daten mit einer Quadratwurzel zu transformieren? Ich meine, was ich immer beobachte, ist, dass die R ^ 2 zunimmt. Aber das liegt wahrscheinlich nur an der Zentrierung der Daten! Jeder Gedanke wird

regression data-transformation variance-stabilizing

15

Gibt es mehr als Bayesianismus?

Als Student der Physik habe ich die Vorlesung "Warum ich ein Bayesianer bin" vielleicht ein halbes Dutzend Mal erlebt. Es ist immer dasselbe - der Moderator erklärt selbstgefällig, dass die Bayes'sche Interpretation der von den Massen angeblich verwendeten frequentistischen Interpretation überlegen...

probability bayesian frequentist

15

Effizientes Aktualisieren der linearen Regression beim Hinzufügen von Beobachtungen und / oder Prädiktoren in R

Ich würde gerne Wege in R finden, um ein lineares Modell effizient zu aktualisieren, wenn eine Beobachtung oder ein Prädiktor hinzugefügt wird. biglm kann beim Hinzufügen von Beobachtungen aktualisiert werden, aber meine Daten sind klein genug, um sich im Speicher zu befinden (obwohl ich eine große...

r regression computational-statistics linear-model

15

Normalisierungskonstante im Bayes-Theorem

Pr(data)Pr(data)\Pr(\textrm{data}) Pr(parameters∣data)=Pr(data∣parameters)Pr(parameters)Pr(data)Pr(parameters∣data)=Pr(data∣parameters)Pr(parameters)Pr(data)\Pr(\text{parameters} \mid \text{data}) = \frac{\Pr(\textrm{data} \mid \textrm{parameters}) \Pr(\text{parameters})}{\Pr(\text{data})} wird...

probability bayesian

15

Was ist eine "Nachrichtenübermittlungsmethode"?

Ich habe eine vage Vorstellung davon, was eine Nachrichtenübermittlungsmethode ist: ein Algorithmus, der eine Annäherung an eine Verteilung durch iteratives Erstellen von Annäherungen jedes der Faktoren der Verteilung erstellt, die von allen Annäherungen aller anderen Faktoren abhängig sind. Ich...

distributions bayesian references algorithms