Statistiken und Big Data

14

Warum sind Beziehungen in nichtparametrischen Statistiken so schwierig?

Mein nichtparametrischer Text " Praktische nichtparametrische Statistik" enthält häufig klare Formeln für Erwartungen, Abweichungen, Teststatistiken und dergleichen, enthält jedoch den Vorbehalt, dass dies nur funktioniert, wenn wir Bindungen ignorieren. Bei der Berechnung der...

nonparametric ties

14

oderMetriken für Clustering?

Verwendet jemand die Metriken L1L1L_1 oder L.5L.5L_.5 für das Clustering und nicht L2L2L_2 ? Über das überraschende Verhalten von Distanzmetriken im hochdimensionalen Raum gaben Aggarwal et al. (2001) an, dass L1L1L_1 istfür hochdimensionale Data-Mining-Anwendungendurchweg vorzuziehen als die...

clustering distance-functions rule-of-thumb

14

So stimmen Sie die Glättung im mgcv GAM-Modell

Ich versuche herauszufinden, wie die Glättungsparameter in einem mgcv: gam-Modell gesteuert werden. Ich habe eine Binomialvariable, die ich hauptsächlich als Funktion der x- und y-Koordinaten auf einem festen Gitter modellieren möchte, sowie einige andere Variablen mit geringfügigeren Einflüssen....

r smoothing mgcv

14

Wie berechnet man Prognosefehler (Konfidenzintervalle) für laufende Perioden?

Ich muss oft in monatlichen Datenreihen für zukünftige Perioden prognostizieren. Zur Berechnung des Konfidenzintervalls bei Alpha für den nächsten Zeitraum in der Zeitreihe stehen Formeln zur Verfügung, die jedoch niemals die Behandlung des zweiten Zeitraums und des dritten usw. einschließen. Ich...

confidence-interval forecasting

14

Beispiele für Text Mining mit R (TM-Paket)

Ich verbrachte drei Tage damit, mich mit tmeinem Entwurf eines Freundes zu beschäftigen, in dem er mit UCINET einen Textkorpus erkundete, der Textwolken, Zwei-Modus-Netzwerkgraphen und Einzelwertzerlegung (mit Grafiken, unter Verwendung von Stata) zeigte. Ich habe viele Probleme: Unter Mac OS X...

r text-mining

14

k-bedeutet Implementierung mit benutzerdefinierter Distanzmatrix in der Eingabe

Kann mich jemand auf eine k-means-Implementierung hinweisen (besser in matlab), die die Distanzmatrix als Eingabe verwenden kann? Die Standard-Matlab-Implementierung benötigt die Beobachtungsmatrix als Eingabe und es ist nicht möglich, das Ähnlichkeitsmaß benutzerdefiniert zu ändern....

clustering matlab k-means

14

Auswahl der Box-Jenkins-Modelle

Das Box-Jenkins-Modellauswahlverfahren in der Zeitreihenanalyse beginnt mit der Betrachtung der Autokorrelations- und der partiellen Autokorrelationsfunktion der Reihe. Diese Diagramme können das geeignete und in einem ARMA -Modell vorschlagen . Das Verfahren wird fortgesetzt, indem der Benutzer...

regression time-series arima model-selection box-jenkins

14

Generieren von Werten aus einer multivariaten Gaußschen Verteilung

Ich versuche gerade, Werte einer dimensionalen Zufallsvariablen zu simulieren , die eine multivariate Normalverteilung mit dem mittleren Vektor und der Kovarianzmatrix .NNNXXXμ=(μ1,...,μN)Tμ=(μ1,...,μN)T\mu = (\mu_1,...,\mu_N)^TSSS Ich hoffe, eine Prozedur zu verwenden, die der inversen CDF-Methode...

matlab algorithms random-generation multivariate-normal

14

Wie skaliere ich Geigenpläne für Vergleiche?

Ich versuche, Geigenpläne zu zeichnen, und frage mich, ob es eine bewährte Methode gibt, um sie gruppenübergreifend zu skalieren. Hier sind drei Optionen, die ich mit dem R- mtcarsDatensatz ausprobiert habe (Motor Trend Cars von 1973, hier zu finden ). Gleiche Breiten Scheint zu sein, was das...

distributions data-visualization nonparametric

14

Wie berechnet man die Wahrscheinlichkeit, die mit absurd großen Z-Scores verbunden ist?

Softwarepakete zur Erkennung von Netzwerkmotiven können enorm hohe Z-Scores liefern (der höchste Wert, den ich gesehen habe, ist 600.000+, aber Z-Scores von mehr als 100 sind durchaus üblich). Ich habe vor zu zeigen, dass diese Z-Scores falsch sind. Riesige Z-Scores entsprechen extrem niedrigen...

probability normal-distribution p-value approximation z-statistic

14

Gleichmäßig verteilte Gewichte generieren, die die Summe aus Einheit ergeben?

Es ist üblich, Gewichte in Anwendungen wie der Gemischmodellierung zu verwenden und Basisfunktionen linear zu kombinieren. Gewichte wiwiw_i muss oft gehorchen wi≥wi≥w_i ≥ 0 und ∑iwi=1∑iwi=1\sum_{i} w_i=1 . Aus einer gleichmäßigen Verteilung solcher Vektoren möchte ich zufällig einen Gewichtsvektor...

random-generation

14

Wie werden zufällige kategoriale Daten generiert?

Angenommen, ich habe eine kategoriale Variable, die die Werte A, B, C und D annehmen kann. Wie kann ich 10000 zufällige Datenpunkte generieren und deren Häufigkeit steuern? Beispielsweise: A = 10% B = 20% C = 65% D = 5% Irgendwelche Ideen, wie ich das machen

random-variable

14

Logistische Regression mit binär abhängigen und unabhängigen Variablen

Ist es angebracht, eine logistische Regression durchzuführen, bei der sowohl die abhängigen als auch die unabhängigen Variablen binär sind? Zum Beispiel ist die abhängige Variable 0 und 1 und die Prädiktoren sind kontrastcodierte Variablen -1 und

logistic

14

Interpretation der Entfernung von der Hyperebene in SVM

Ich habe einige Zweifel daran, SVMs intuitiv zu verstehen. Angenommen, wir haben ein SVM-Modell für die Klassifizierung mit einem Standardwerkzeug wie SVMLight oder LibSVM trainiert. Wenn wir dieses Modell zur Vorhersage von Testdaten verwenden, generiert das Modell eine Datei mit "Alpha" -Werten...

machine-learning svm max-margin

14

Gibt es Unterschiede in der bayesianischen und der frequentistischen Herangehensweise an EDA?

Ganz einfach gesagt: Gibt es Unterschiede in den Bayesianischen und Frequentistischen Ansätzen zur exploratorischen Datenanalyse? Ich kenne keine inhärenten Verzerrungen in EDA-Methoden, da ein Histogramm ein Histogramm ist, ein Streudiagramm ein Streudiagramm ist usw., und ich habe auch keine...

bayesian frequentist eda

14

Wie Levene Testfunktion in R verwenden?

Ich bin ein Neuling in Statistik und R und habe Probleme mit der Verwendung der Levene-Funktion (ich möchte die Varianzgleichheit von zwei Stichproben prüfen). In der Dokumentation steht, dass ich Folgendes ausführen soll: levene.test (y, Gruppe) Aber ich habe keine Ahnung, was ich als y und...

r variance levenes-test

14

Was bewirkt die Dichotomisierung von Variablen?

Welche Informationen gehen bei der Dichotomisierung von Variablen verloren? Wie hilft eine Dichotomisierung bei den

regression data-transformation binary-data

14

Was ist der Unterschied zwischen Stichprobenvarianz und Stichprobenvarianz?

Was ist der Unterschied zwischen Stichprobenvarianz und Stichprobenvarianz? Sie scheinen gleich zu sein. Sind sie

sampling variance sample

14

Unterschreitet die Maximierung der Genauigkeit bei über- / unterabgetasteten unsymmetrischen Klassen die Minimierung der Fehlklassifizierungskosten?

Zunächst möchte ich einige gängige Layouts beschreiben, die in Data Mining-Büchern verwendet werden, um den Umgang mit unsymmetrischen Datasets zu erläutern . Normalerweise heißt der Hauptabschnitt Unbalanced Datasets und deckt diese beiden Unterabschnitte ab: Cost-Sensitive Classification und...

machine-learning classification unbalanced-classes

14

Was sind die „heißen Algorithmen“ für maschinelles Lernen?

Dies ist eine naive Frage von jemandem, der anfängt, maschinelles Lernen zu lernen. Ich lese in diesen Tagen das Buch "Maschinelles Lernen: Eine algorithmische Perspektive" von Marsland. Ich finde es nützlich als Einführungsbuch, aber jetzt möchte ich auf fortgeschrittene Algorithmen eingehen, die...

machine-learning clustering bioinformatics