Als «data-mining» getaggte Fragen

33

Relative variable Bedeutung für das Boosting

Ich suche nach einer Erklärung, wie die relative variable Wichtigkeit in gradientenverstärkten Bäumen berechnet wird, die nicht allzu allgemein / simpel ist wie: Die Kennzahlen basieren auf der Häufigkeit, mit der eine Variable zum Teilen ausgewählt wurde, gewichtet durch die quadratische...

31

Gibt es statistische Lehren aus der "Bible Code" -Episode?

Obwohl diese Frage etwas subjektiv ist, hoffe ich, dass sie sich als gute subjektive Frage gemäß den FAQ-Richtlinien eignet . Es basiert auf einer Frage, die Olle Häggström mir vor einem Jahr gestellt hat, und obwohl ich einige Gedanken dazu habe, habe ich keine definitive Antwort und würde mich...

hypothesis-testing data-mining

30

Welche mathematischen Fächer würden Sie vorschlagen, um sich auf Data Mining und maschinelles Lernen vorzubereiten?

Ich versuche, ein selbstgesteuertes Mathematik-Curriculum zusammenzustellen, um mich auf das Erlernen von Data Mining und maschinellem Lernen vorzubereiten. Dies ist darauf zurückzuführen , dass ich Andrew Ngs Maschinenlernkurs in Coursera begonnen habe und das Gefühl hatte, dass ich meine...

machine-learning references data-mining

28

Warum sind p-Werte nach einer schrittweisen Auswahl irreführend?

Betrachten wir zum Beispiel ein lineares Regressionsmodell. Ich habe gehört, dass es beim Data Mining nach einer schrittweisen Auswahl auf der Grundlage des AIC-Kriteriums irreführend ist, die p-Werte zu betrachten, um die Nullhypothese zu testen, dass jeder wahre Regressionskoeffizient Null ist....

multiple-regression predictive-models data-mining stepwise-regression

28

Unterschied zwischen Standard- und sphärischen k-Means-Algorithmen

Ich würde gerne verstehen, was der Hauptunterschied in der Implementierung zwischen Standard- und sphärischen K-Mittel-Clustering-Algorithmen ist. In jedem Schritt berechnet k-means die Abstände zwischen Elementvektoren und Cluster-Schwerpunkten und ordnet das Dokument diesem Cluster zu, dessen...

clustering data-mining algorithms k-means

27

Software-Tools für Statistik und Data Mining für den Umgang mit großen Datenmengen

Derzeit muss ich ungefähr 20 Millionen Datensätze analysieren und Vorhersagemodelle erstellen. Bisher habe ich Statistica, SPSS, RapidMiner und R ausprobiert. Unter diesen scheint Statistica am besten für das Data Mining geeignet zu sein, und die RapidMiner-Benutzeroberfläche ist ebenfalls sehr...

large-data software data-mining

25

Was ist die tägliche Arbeitsroutine des maschinell lernenden Wissenschaftlers?

Ich bin ein Master-CS-Student an einer deutschen Universität und schreibe gerade meine Abschlussarbeit. Ich werde in zwei Monaten fertig sein. Ich muss die sehr schwierige Entscheidung treffen, ob ich weiter promovieren oder einen Job in der Branche finden soll. Meine Gründe für eine Promotion: Ich...

machine-learning data-mining careers

25

Was ist das Maß für die Genauigkeit von Multilabel-Daten?

Stellen Sie sich ein Szenario vor, in dem Sie mit KnownLabel Matrix und PredictedLabel Matrix ausgestattet sind. Ich möchte die Güte der PredictedLabel-Matrix mit der KnownLabel-Matrix vergleichen. Die Herausforderung hierbei ist jedoch, dass die KnownLabel-Matrix nur wenige Zeilen mit einer 1 und...

machine-learning data-mining multilabel

25

LSA vs. PCA (Dokumentenclustering)

Ich untersuche verschiedene Techniken, die beim Clustering von Dokumenten zum Einsatz kommen, und möchte einige Zweifel in Bezug auf PCA (Principal Component Analysis) und LSA (Latent Semantic Analysis) klären. Erste Sache - was sind die Unterschiede zwischen ihnen? Ich weiß, dass in PCA die...

clustering pca data-mining svd lsa

23

Was ist der Unterschied zwischen einer Verlustfunktion und einer Entscheidungsfunktion?

Ich sehe, dass beide Funktionen Teil von Data Mining-Methoden wie Gradient Boosting Regressors sind. Ich sehe, dass dies auch separate Objekte sind. Wie ist die Beziehung zwischen beiden im

regression classification data-mining decision-theory

22

Negative Binomialverteilung vs. Binomialverteilung

Was ist der Unterschied zwischen der negativen Binomialverteilung und der Binomialverteilung? Ich habe versucht, online zu lesen, und festgestellt, dass die negative Binomialverteilung verwendet wird, wenn Datenpunkte diskret sind, aber ich denke, dass sogar die Binomialverteilung für diskrete...

categorical-data data-mining binomial negative-binomial

22

Führen Sie K-Means-Clustering (oder ein Clustern seiner nahen Verwandten) nur mit einer Distanzmatrix durch, nicht mit Daten zu Punkten nach Merkmalen

Ich möchte K-Means-Clustering für Objekte ausführen, die ich habe, aber die Objekte werden nicht als Punkte im Raum beschrieben, dh nach objects x featuresDatensatz. Ich kann jedoch den Abstand zwischen zwei beliebigen Objekten berechnen (er basiert auf einer Ähnlichkeitsfunktion). Also verfüge ich...

machine-learning clustering data-mining k-means distance

21

Neue revolutionäre Art des Data Mining?

Der folgende Auszug ist aus Schwagers Hedge Fund Market Wizzards (Mai 2012), einem Interview mit dem durchweg erfolgreichen Hedge Fund Manager Jaffray Woodriff: Auf die Frage: "Was sind die schlimmsten Fehler, die Menschen beim Data Mining machen?": Viele Leute denken, dass sie in Ordnung sind,...

data-mining curve-fitting out-of-sample

21

Woher wissen, ob die Daten linear trennbar sind?

Die Daten haben viele Funktionen (z. B. 100) und die Anzahl der Instanzen liegt bei 100.000. Die Daten sind spärlich. Ich möchte die Daten mit logistischer Regression oder SVM anpassen. Woher weiß ich, ob Features linear oder nicht linear sind, sodass ich den Kernel-Trick verwenden kann, wenn er...

machine-learning logistic svm data-mining

21

Erster Schritt für Big Data ( , )

Angenommen, Sie analysieren einen riesigen Datensatz mit Milliarden von Beobachtungen pro Tag, wobei jede Beobachtung einige Tausend spärliche und möglicherweise redundante numerische und kategoriale Variablen enthält. Angenommen, es gibt ein Regressionsproblem, ein Problem der unausgeglichenen...

r machine-learning data-mining large-data

21

Wenn k-means Clustering eine Form der Gaußschen Mischungsmodellierung ist, kann es verwendet werden, wenn die Daten nicht normal sind?

Ich lese Bishop über den EM-Algorithmus für GMM und die Beziehung zwischen GMM und k-means. In diesem Buch heißt es, dass k-means eine schwer zuzuordnende Version von GMM ist. Ich frage mich, ob dies bedeutet, dass ich k-means nicht verwenden kann (oder zumindest nicht verwenden kann), wenn die...

clustering data-mining k-means gaussian-mixture

21

Sind Entscheidungsbäume fast immer Binärbäume?

Fast jedes Entscheidungsbaum-Beispiel, auf das ich gestoßen bin, ist zufällig ein Binärbaum. Ist das so ziemlich universell? Unterstützen die meisten Standardalgorithmen (C4.5, CART usw.) nur binäre Bäume? Soweit ich weiß, ist CHAID nicht auf binäre Bäume beschränkt, aber das scheint eine Ausnahme...

machine-learning data-mining cart

21

Kreuzvalidierung (Verallgemeinerung von Fehlern) nach Modellauswahl

Hinweis: Groß- / Kleinschreibung ist n >> p Ich lese Elemente des statistischen Lernens und es gibt verschiedene Erwähnungen über den "richtigen" Weg zur Kreuzvalidierung (z. B. Seite 60, Seite 245). Insbesondere ist meine Frage, wie das endgültige Modell (ohne einen separaten Testsatz) mit...

machine-learning model-selection data-mining cross-validation

20

"Interestingness" -Funktion für StackExchange-Fragen

Diese Frage wurde von Mathematics Stack Exchange migriert, da sie auf Cross Validated beantwortet werden kann. Vor 8 Jahren migriert . Ich versuche, ein Data-Mining-Paket für StackExchange-Sites zusammenzustellen, und insbesondere stecke ich fest, um die

data-mining predictive-models

20

Fernüberwachung: überwacht, halb überwacht oder beides?

"Fernüberwachung" ist ein Lernschema, bei dem ein Klassifikator anhand eines schwach gekennzeichneten Trainingssatzes gelernt wird (Trainingsdaten werden automatisch anhand von Heuristiken / Regeln gekennzeichnet). Ich denke, dass sowohl beaufsichtigtes Lernen als auch semi-beaufsichtigtes Lernen...

machine-learning data-mining dataset references unsupervised-learning