Statistiken und Big Data

15
Betrügt es, die Ausreißer auf der Grundlage des Boxplots des mittleren absoluten Fehlers zu löschen, um ein Regressionsmodell zu verbessern?

Ich habe ein Vorhersagemodell mit vier Methoden getestet, wie Sie in der Boxplot-Abbildung unten sehen können. Das vom Modell vorhergesagte Attribut liegt im Bereich von 0 bis 8. Möglicherweise stellen Sie fest, dass bei allen Methoden ein Ausreißer mit Obergrenze und drei Ausreißer mit...

15
Keine überhöhten Verteilungen, was sind sie wirklich?

Ich habe Mühe, keine überhöhten Verteilungen zu verstehen. Was sind Sie? Was ist der Sinn? Wenn ich Daten mit vielen Nullen habe, könnte ich eine logistische Regression anpassen, zuerst die Wahrscheinlichkeit von Nullen berechnen und dann alle Nullen entfernen und dann eine reguläre Regression...

15
Warum müssen Sie Daten in KNN skalieren?

Könnte mir bitte jemand erklären, warum Sie Daten normalisieren müssen, wenn Sie K nächste Nachbarn verwenden. Ich habe versucht, dies nachzuschlagen, aber ich kann es immer noch nicht verstehen. Ich habe folgenden Link gefunden:

15
Was bedeutet "eigentlich" gepoolte Varianz?

Ich bin ein Noob in der Statistik, also könntet ihr mir bitte hier raushelfen. Meine Frage lautet: Was bedeutet eigentlich gepoolte Varianz ? Wenn ich im Internet nach einer Formel für gepoolte Varianz suche, finde ich viel Literatur mit der folgenden Formel (zum Beispiel hier: