Statistiken und Big Data

9

Simulieren von Daten für die logistische Regression mit einer kategorialen Variablen

Ich habe versucht, einige Testdaten für die logistische Regression zu erstellen, und diesen Beitrag gefunden. Wie simuliere ich künstliche Daten für die logistische Regression? Es ist eine schöne Antwort, aber es werden nur kontinuierliche Variablen erstellt. Was ist mit einer kategorialen...

r logistic simulation

9

Wie kann ich die Bedeutung verschiedener Eingaben für die Prognose für ein nichtlineares Black-Box-Modell visualisieren?

Ich erstelle ein interaktives Prognosetool (in Python) als Hilfe für Prognosen, die in meiner Organisation durchgeführt werden. Bisher war der Prognoseprozess weitgehend vom Menschen gesteuert, wobei Prognostiker die Daten in ihren natürlichen neuronalen Netzen assimilierten und ihr erlerntes...

data-visualization communication

9

Die Whisker eines Boxplots verstehen

Ich habe eine Frage zur Interpretation der Whisker eines Boxplots. Ich habe Folgendes gelesen: "Oben und unten im Rechteck zeigen die" Whisker "den Bereich des 1,5-fachen Abstands zwischen den 0,25- und 0,75-Quantilen", verstehe aber nicht ganz, was unter "Abstand" zu verstehen ist. . Es kann...

data-visualization boxplot

9

Regression auf das mittlere Rätsel

Im Kapitel "Regression to the Mean" von Daniel Kahneman "Denken, schnell und langsam" wird ein Beispiel gegeben, und der Leser wird gebeten, den Umsatz einzelner Geschäfte anhand der Gesamtumsatzprognose und der Verkaufszahlen des Vorjahres zu prognostizieren . Zum Beispiel (das Beispiel des Buches...

regression

9

Was ist der Unterschied zwischen der Maximierung der bedingten (logarithmischen) Wahrscheinlichkeit oder der gemeinsamen (logarithmischen) Wahrscheinlichkeit bei der Schätzung der Parameter eines Modells?

Betrachten Sie eine Antwort y und Datenmatrix X . Angenommen, ich erstelle ein Modell des Formulars - y ~ g (X, )θθ\theta (g () könnte eine beliebige Funktion von X und )θθ\theta Zur Schätzung von θθ\theta Verwendung der Maximum Likelihood (ML) -Methode könnte ich entweder mit der bedingten ML...

estimation maximum-likelihood optimization

9

Verwenden des EM-Algorithmus für die Datensatzverknüpfung

Ich bin daran interessiert, Datensätze über 2 Datensätze nach Vorname, Nachname und Geburtsjahr zu verknüpfen. Könnte dies mit dem EM-Algorithmus machbar sein, und wenn ja, wie? Betrachten Sie die folgende Aufzeichnung im 1. als Beispiel: Carl McCarthy, 1967. Ich werde alle Datensätze im 2....

machine-learning stata expectation-maximization record-linkage perl

9

Was ist mit dem „Level“ einer Zeitreihe gemeint?

In einem Großteil der Literatur, die ich studiere, ist es einer dieser Begriffe, die häufig vorkommen, ohne dass eine strenge Definition gefunden werden muss. Insbesondere wird mir gesagt: Für zeitindizierte Zufallsvariablen (RVs) wird das additive Zerlegungsmodell wie folgt angegeben{...

time-series definition

9

Welchen Beitrag leistete Student (Gosset) bei der Formulierung des T-Tests?

Eine letzte Frage , damit verbundene Frage , und Quelle zitierte , hat mich vor kurzem bekannt , dass die Korrektur für die Proben Schätzungen der Varianz wird als bezeichnet Besselsche Korrektur . Bessel war 1846 tot ( Wikipedia-Zitat ) und der T-Test wurde 1908 veröffentlicht ( Wikipedia-Zitat )....

distributions t-test history

9

Buch für nicht parametrische Statistiken

Was wäre ein gutes Buch für nichtparametrische Statistiken? Nicht nur die Einführung, sondern auch das fortgeschrittene Niveau. Außerdem schaue ich mir etwas an, das ich zum Lernen und nicht als Referenz verwenden kann. Insbesondere suche ich nach einem Buch, das Grundlagen hinter...

nonparametric references kolmogorov-smirnov

9

Cluster für k-means auswählen: der Fall 1 Cluster

Kennt jemand eine gute Methode, um festzustellen, ob Clustering mit kmeans überhaupt angemessen ist? Was ist, wenn Ihre Probe tatsächlich homogen ist? Ich weiß, dass so etwas wie ein Mischungsmodell (über mclust in R) Anpassungsstatistiken für den 1: k-Clusterfall liefert, aber es scheint, dass...

r clustering k-means

9

Momenterzeugungsfunktion des inneren Produkts zweier Gaußscher Zufallsvektoren

Kann jemand bitte vorschlagen, wie ich die Momenterzeugungsfunktion des inneren Produkts von zwei Gaußschen Zufallsvektoren berechnen kann, die jeweils als unabhängig voneinander verteilt sind? Gibt es dafür ein Standardergebnis? Jeder Zeiger wird sehr geschätzt.N(0,σ2)N(0,σ2)\mathcal...

normal-distribution mathematical-statistics multivariate-analysis moments mgf

9

Wie wird eine Kontrastmatrix (in R) für die Differenz zwischen einer Ebene und einem Durchschnitt der anderen angegeben?

Ich habe ein Regressionsmodell, das so aussieht:Y=β0+β1X1+β2X2+β3X3+β12X1X2+β13X1X3+β123X1X2X3Y=β0+β1X1+β2X2+β3X3+β12X1X2+β13X1X3+β123X1X2X3Y = \beta_0+\beta_1X_1 + \beta_2X_2 + \beta_3X_3 +\beta_{12}X_1X_2+\beta_{13}X_1X_3+\beta_{123}X_1X_2X_3 ... oder in R-Notation: y ~ x1 + x2 + x3 + x1:x2 +...

r contrasts

9

Äquivalenztests für nicht normale Daten?

Ich habe einige Daten, von denen ich nicht unbedingt annehmen kann, dass sie aus Normalverteilungen stammen, und ich möchte Äquivalenztests zwischen Gruppen durchführen. Für normale Daten gibt es Techniken wie TOST (zwei einseitige T-Tests). Gibt es etwas Analoges zu TOST für nicht normale...

hypothesis-testing equivalence tost

9

Die p-Werte des Mann-Whitney-U-Tests sind für rohe und logarithmisch transformierte Daten identisch

Ich bin neu in Stats und bin auf dieses Problem gestoßen, als ich meine Analysen auf SPSS ausgeführt habe, die ich nicht erklären kann. Wie kommt es, dass meine Daten auch nach der Transformation durch Protokollierung denselben p-Wert haben wie der nicht transformierte

data-transformation p-value wilcoxon-mann-whitney

9

Wie finde ich den erwarteten Abstand zwischen zwei gleichmäßig verteilten Punkten?

Wenn ich die Koordinaten und wo( X 2 , Y 2 )( X.1, Y.1)(X1,Y1)(X_{1},Y_{1})( X.2, Y.2)(X2,Y2)(X_{2},Y_{2}) X.1, X.2∼ Unif ( 0 , 30 ) und Y.1, Y.2∼ Unif ( 0 , 40 ) .X1,X2∼Unif(0,30) and Y1,Y2∼Unif(0,40).X_{1},X_{2} \sim \text{Unif}(0,30)\text{ and }Y_{1},Y_{2} \sim \text{Unif}(0,40). Wie würde ich...

expected-value uniform distance

9

Erstellen von Demodaten aus realen Daten: Verkleidung ohne Entstellung

(Ich habe keine wirkliche Ahnung, womit ich das markieren soll, da ich kein Statistiker bin und nicht weiß, in welches Feld dies fällt. Sie können gerne weitere geeignete Tags hinzufügen.) Ich arbeite für ein Unternehmen, das Datenanalyse-Software herstellt, und wir benötigen einen anständigen...

data-cleaning

9

Macht Stan vorausschauende Posterioren?

Verfügt Stan (insbesondere Rstan) über integrierte Einrichtungen zur Erzeugung prädiktiver posteriorer Verteilungen? Es ist nicht schwer, die Verteilung aus der Stan-Passform zu generieren, aber ich möchte das Rad lieber nicht neu

bayesian posterior stan

9

Regression durch den Ursprung

Wir haben die folgenden Punkte: Wie können wir die am besten passende Linie durch die Punkte finden? Mein Rechner hat die Option, die am besten passende Linie durch diese Punkte zu finden, nämlich:y = a x y = a x + b( 0 , 0 ) ( 1 , 51,8 ) ( 1,9 , 101,3 ) ( 2,8 , 148,4 ) ( 3,7 , 201,5 ) ( 4,7 ,...

regression intercept

9

SVM-Vertrauen nach Entfernung von der Hyperlinie

Für einen probabilistischen Mehrklassenklassifikator können wir Wahrscheinlichkeiten der Zugehörigkeit eines neuen Punktes zu jeder Klasse y_i erhalten ; Im Fall von 3 Klassen nehmen wir an, dass wir P (y_a | x)> P (y_b | x)> P (y_c | x) erhalten , daher ist die wahrscheinlichste Klasse von x...

probability classification svm unsupervised-learning uncertainty

9

Dynamisches Time Warping und Normalisierung

Ich verwende Dynamic Time Warping, um eine "Abfrage" - und eine "Vorlagen" -Kurve abzugleichen, und habe bisher vernünftigen Erfolg, aber ich habe einige grundlegende Fragen: Ich bewerte eine "Übereinstimmung", indem ich bewerte, ob das DTW-Ergebnis unter einem von mir heuristisch ermittelten...

time-series normalization functional-data-analysis