Ich werde diese Frage anhand eines Beispiels vorschlagen.
Angenommen, ich habe einen Datensatz, z. B. den Preisdatensatz für Wohnimmobilien in Boston, in dem ich kontinuierliche und kategoriale Variablen habe. Hier haben wir eine "Qualitäts" -Variable von 1 bis 10 und den Verkaufspreis. Ich kann die Daten in Häuser mit "niedriger", "mittlerer" und "hoher" Qualität unterteilen, indem ich (willkürlich) Grenzwerte für die Qualität erzeuge. Mit diesen Gruppierungen kann ich dann Histogramme des Verkaufspreises gegeneinander aufzeichnen. Wie so:
Hier ist "niedrig" , und "hoch" ist in der "Qualitätsbewertung". Wir haben jetzt eine Verteilung der Verkaufspreise für jede der drei Gruppen. Es ist klar, dass es bei den Häusern mittlerer und hoher Qualität einen Unterschied im Standortzentrum gibt. Jetzt, nachdem ich das alles getan habe, denke ich "Hm. Es scheint einen Unterschied in der Ortsmitte zu geben! Warum mache ich keinen T-Test mit den Mitteln?". Dann erhalte ich einen p-Wert, der die Nullhypothese, dass es keinen Mittelwertunterschied gibt, korrekt zu verwerfen scheint.
Nehmen wir an, ich hätte nichts im Sinn, um diese Hypothese zu testen, bis ich die Daten gezeichnet habe.
Werden diese Daten ausgebaggert?
Gibt es immer noch Datenausgrabungen, wenn ich dachte: "Hm, ich wette, die höherwertigen Häuser kosten mehr, da ich ein Mensch bin, der zuvor in einem Haus gelebt hat. Ich werde die Daten plotten. Ah ha! Sieht anders aus! Zeit zum T-Test! "
Es ist natürlich keine Datenausgrabung, wenn der Datensatz mit der Absicht gesammelt wurde, diese Hypothese von Anfang an zu testen. Aber oft muss man mit uns gegebenen Datensätzen arbeiten und muss "nach Mustern suchen". Wie vermeidet jemand das Ausbaggern von Daten angesichts dieser vagen Aufgabe? Hold-Out-Sets zum Testen von Daten erstellen? Gilt Visualisierung als Schnüffeln für die Möglichkeit, eine von den Daten vorgeschlagene Hypothese zu testen?
Die Visualisierung der Daten ist ein unverzichtbarer Bestandteil der Analyse und eines der ersten Dinge, die Sie mit einem unbekannten Datensatz tun sollten. Ein kurzer Blick auf die Daten kann Aufschluss über die nächsten Schritte geben. In der Tat sollte es ziemlich offensichtlich sein, wenn man sich die Grafik ansieht, dass die Mittelwerte unterschiedlich sind, und ich bin nicht sicher, warum ein T-Test erforderlich war, um dies zu bestätigen - die Mittelwerte sind ausreichend voneinander getrennt, sodass die Grafik selbst alle Beweise darstellt, die ich möchte benötigen.
Ich denke, dass es hier eine tiefere Frage gibt. Wie bewahren Sie eine zenartige Neutralität und vermeiden Verzerrungen beim wissenschaftlichen Umgang mit Daten? Die Antwort ist, dass du es nicht tust. Oder besser gesagt, du musst nicht. Es ist völlig natürlich und akzeptabel, Ahnungen und Hypothesen zu bilden und eine mentale Darstellung der Bedeutung der Daten zu erstellen, vorausgesetzt, Sie wissen, dass Sie dies tun, und Sie sind mental bereit, all diese Hypothesen zu überdenken, wenn Sie mit widersprüchlichen Daten konfrontiert werden.
quelle