Diese Frage könnte hier oder auf SO vielleicht gehen ...
Angenommen, Ihr Trainingsdatensatz enthält sowohl kategoriale als auch kontinuierliche Daten wie dieses Setup:
Animal, breed, sex, age, weight, blood_pressure, annual_cost
cat, calico, M, 10, 15 , 100 , 100
cat, tabby, F, 5, 10 , 80 , 200
dog, beagle, M, 3, 30 , 90 , 200
dog, lab, F, 8, 75 , 80 , 100
Und die vorherzusagende abhängige Variable sind die jährlichen Tierarztkosten. Ich bin etwas verwirrt über die spezifischen Techniken, die für den Umgang mit einem solchen Datensatz verfügbar sind. Welche Methoden werden üblicherweise verwendet, um mit Datensätzen umzugehen, die eine Mischung aus kontinuierlichen und kategorialen Daten sind?
quelle
Sie sollten sich die Datenvorverarbeitung ansehen . Es ist vor jeder maschinellen Lerntechnik. Hier ist eine gute Einführung (bei Google zu finden).
In Bezug auf die Techniken gibt es viele verschiedene Ansätze . Sie können wahrscheinlich die meisten davon verwenden, nachdem Sie Ihre Daten vorverarbeitet haben. Sie sollten sie ausprobieren und diejenige auswählen, die Ihren Anforderungen am besten entspricht.
quelle