Beim Lesen des folgenden Papiers bin ich auf folgende Aussage gestoßen:
Wie bereits erwähnt, wird es häufig ohne Bezugnahme auf probabilistische Modelle präsentiert, in Übereinstimmung mit Benzecris [1973] Idee, "die Daten für sich selbst sprechen zu lassen".
(Zitat von JP Benzécri. L'analyse des données. Band II: L'analyse des korrespondenzen. Dunod, 1973.)
Wenn ich dieses Papier lese, klingt es so, als würde "die Daten für sich selbst sprechen lassen" etwas in der Art bedeuten, dass verschiedene Maßnahmen in den Daten berücksichtigt werden, ohne Rücksicht auf eine Wahrscheinlichkeitsfunktion oder einen Datenerzeugungsprozess .
Während ich das Zitat "Lassen Sie die Daten für sich selbst sprechen" schon einmal gehört habe, habe ich mir keine Gedanken darüber gemacht, was impliziert wird. Ist meine obige Interpretation das, was dieses Zitat kanonisch impliziert?
Antworten:
Die Interpretation hängt vom Kontext ab, aber es gibt einige gemeinsame Kontexte, in denen dies auftritt. Die Aussage wird in der Bayes'schen Analyse häufig verwendet, um die Tatsache hervorzuheben, dass wir im Idealfall möchten, dass die posteriore Verteilung in der Analyse gegenüber früheren Annahmen robust ist, so dass der Effekt der Daten den posterioren Bereich "dominiert". Im Allgemeinen bedeutet das Zitat normalerweise, dass unser statistisches Modell der Struktur der Daten entsprechen soll, anstatt die Daten zu einer Interpretation zu zwingen, die eine nicht überprüfbare strukturelle Annahme des Modells darstellt.
Das bestimmte Zitat, auf das Sie sich beziehen, wird durch das zusätzliche Zitat ergänzt: "Das Modell muss den Daten folgen, nicht umgekehrt" (übersetzt aus Benzécri J (1973) L'Analyse des Données. Band II: L'Analyse des Correspondances . Dunod, p. 6). Benzécri argumentierte, dass statistische Modelle Struktur aus den Daten extrahieren sollten , anstatt Struktur aufzuerlegen. Er betrachtete die Verwendung explorativer grafischer Methoden als sehr wichtig, damit der Analytiker "die Daten sprechen lassen" kann.
quelle
Um 2005, als "Data Mining" die jüngste Bedrohung für den Statistikberuf darstellte, erinnere ich mich an ein Poster mit "Data Mining-Prinzipien", von denen eines "die Daten sprechen lassen" lautete (ich kann mich nicht erinnern, ob "für sich selbst"). war inbegriffen). Wenn Sie an Algorithmen denken, die als "Data Mining", Apriori und rekursive Partitionierung angesehen werden könnten, kommen Ihnen zwei Algorithmen in den Sinn, die ohne statistische Annahmen motiviert werden können und zu ziemlich einfachen Zusammenfassungen des zugrunde liegenden Datensatzes führen.
@Ben versteht mehr von der Geschichte des Satzes als ich, denke aber an das Zitat, wie es in der Zeitung zitiert wird:
Es scheint mir, dass die Prozedur von MCA apriori oder rekursiver Partitionierung (oder Hölle, dem arithmetischen Mittel für diese Angelegenheit) ähnelt, da sie ohne jegliche Modellierung motiviert werden kann und eine mechanische Operation auf einem Datensatz ist, der sinnvoll ist nach einigen ersten Prinzipien.
Es gibt ein Spektrum, in dem die Daten sprechen. Voll Bayesianische Modelle mit starken Priors wären an einem Ende. Frequentistische nichtparametrische Modelle wären näher am anderen Ende.
quelle