Als «data-mining» getaggte Fragen

25
LSA vs. PCA (Dokumentenclustering)

Ich untersuche verschiedene Techniken, die beim Clustering von Dokumenten zum Einsatz kommen, und möchte einige Zweifel in Bezug auf PCA (Principal Component Analysis) und LSA (Latent Semantic Analysis) klären. Erste Sache - was sind die Unterschiede zwischen ihnen? Ich weiß, dass in PCA die...

22
Führen Sie K-Means-Clustering (oder ein Clustern seiner nahen Verwandten) nur mit einer Distanzmatrix durch, nicht mit Daten zu Punkten nach Merkmalen

Ich möchte K-Means-Clustering für Objekte ausführen, die ich habe, aber die Objekte werden nicht als Punkte im Raum beschrieben, dh nach objects x featuresDatensatz. Ich kann jedoch den Abstand zwischen zwei beliebigen Objekten berechnen (er basiert auf einer Ähnlichkeitsfunktion). Also verfüge ich...

21
Erster Schritt für Big Data ( , )

Angenommen, Sie analysieren einen riesigen Datensatz mit Milliarden von Beobachtungen pro Tag, wobei jede Beobachtung einige Tausend spärliche und möglicherweise redundante numerische und kategoriale Variablen enthält. Angenommen, es gibt ein Regressionsproblem, ein Problem der unausgeglichenen...

21
Sind Entscheidungsbäume fast immer Binärbäume?

Fast jedes Entscheidungsbaum-Beispiel, auf das ich gestoßen bin, ist zufällig ein Binärbaum. Ist das so ziemlich universell? Unterstützen die meisten Standardalgorithmen (C4.5, CART usw.) nur binäre Bäume? Soweit ich weiß, ist CHAID nicht auf binäre Bäume beschränkt, aber das scheint eine Ausnahme...