Ich arbeite an einem Projekt und habe Schwierigkeiten zu entscheiden, für welchen Algorithmus ich mich entscheiden soll regression
. Ich möchte wissen, unter welchen Bedingungen man ein linear regression
oder Decision Tree regression
oder wählen soll Random Forest regression
. Gibt es bestimmte Merkmale der Daten, die die Entscheidung treffen würden, einen bestimmten Algorithmus in dem oben genannten Baum zu verwenden? Welche Eigenschaften sollte ich in meinem Datensatz beachten, um die Entscheidung zu treffen? Und gibt es einige Gründe, die dazu führen würden, dass man einen decision tree
oder einen random forest
Algorithmus wählt, selbst wenn die gleiche Korrektheit erreicht werden kann linear regression
?
machine-learning
algorithms
random-forest
linear-regression
decision-trees
machine-learning
predictive-modeling
forecast
r
clustering
similarity
data-mining
dataset
statistics
text-mining
text-mining
data-cleaning
data-wrangling
machine-learning
classification
algorithms
xgboost
data-mining
dataset
dataset
regression
graphs
svm
unbalanced-classes
cross-validation
optimization
hyperparameter
genetic-algorithms
visualization
predictive-modeling
correlation
machine-learning
predictive-modeling
apache-spark
statistics
normalization
apache-spark
map-reduce
r
correlation
confusion-matrix
r
data-cleaning
classification
terminology
dataset
image-classification
machine-learning
regression
apache-spark
machine-learning
data-mining
nlp
parsing
machine-learning
dimensionality-reduction
visualization
clustering
multiclass-classification
evaluation
unsupervised-learning
machine-learning
machine-learning
data-mining
supervised-learning
unsupervised-learning
machine-learning
data-mining
classification
statistics
predictive-modeling
data-mining
clustering
python
pandas
machine-learning
dataset
data-cleaning
data
bigdata
software-recommendation
Jason Donnald
quelle
quelle
Antworten:
Lassen Sie es mich anhand einiger Beispiele für eine klare Intuition erklären:
Die lineare Regression ist ein lineares Modell, was bedeutet, dass es sehr gut funktioniert, wenn die Daten eine lineare Form haben. Wenn die Daten jedoch eine nichtlineare Form haben, kann ein lineares Modell die nichtlinearen Merkmale nicht erfassen.
In diesem Fall können Sie also die Entscheidungsbäume verwenden, mit denen die Nichtlinearität in den Daten besser erfasst werden kann, indem der Raum abhängig von den gestellten Fragen in kleinere Unterräume unterteilt wird.
Ich denke, die Quora-Antwort hier würde einen besseren Job als ich machen, wenn es darum geht, den Unterschied zwischen ihnen und ihren Anwendungen zu erklären. Lassen Sie mich das für Sie zitieren:
quelle
when the data has a non-linear shape, then a linear model cannot capture the non-linear features
Dies ist ein weit verbreitetes Missverständnis. Zuallererst kann eine einfache lineare Regression sogar harmonische Reihen stats.stackexchange.com/questions/60500/… modellieren . Zweitens kann die Merkmalsinteraktion eingeführt werden, und natürlich gibt es ein verallgemeinertes lineares Modell, bei dem eine nichtlineare Funktion für die linearen Terme eingeführt wird (zum Beispiel die logistische Regression).Soweit ich weiß, gibt es keine Regel, die besagt, welcher Algorithmus für welchen Datensatz funktioniert. Stellen Sie einfach sicher, dass Ihr Datensatz und die interessierenden Variablen die Voraussetzungen für die Ausführung jedes Algorithmus erfüllen, und probieren Sie es aus. Zum Beispiel hat die lineare Regression einige Voraussetzungen wie die Normalität der Studien, die Homoskedastizität (die Variabilität der Antwortvariablen ist auf allen Ebenen der erklärenden Variablen gleich) und so weiter. Überprüfen Sie diese einfach auf Ihre Variablen und probieren Sie den Algorithmus aus.
Sie können eine Point-and-Click-Software verwenden, um die Ergebnisse anzuzeigen, ohne sich auf die Code- und Parametereinstellung einzulassen. Wenn Sie ein R-Benutzer sind, ist das Rasselpaket in dieser Phase ein sehr nützliches Werkzeug. Sie erledigen Ihre Arbeit im Point-and-Click-Modus und haben Zugriff auf den Code dahinter.
quelle