Was ist mit "Lassen Sie die Daten für sich selbst sprechen" gemeint?

10

Beim Lesen des folgenden Papiers bin ich auf folgende Aussage gestoßen:

Wie bereits erwähnt, wird es häufig ohne Bezugnahme auf probabilistische Modelle präsentiert, in Übereinstimmung mit Benzecris [1973] Idee, "die Daten für sich selbst sprechen zu lassen".

(Zitat von JP Benzécri. L'analyse des données. Band II: L'analyse des korrespondenzen. Dunod, 1973.)

Wenn ich dieses Papier lese, klingt es so, als würde "die Daten für sich selbst sprechen lassen" etwas in der Art bedeuten, dass verschiedene Maßnahmen in den Daten berücksichtigt werden, ohne Rücksicht auf eine Wahrscheinlichkeitsfunktion oder einen Datenerzeugungsprozess .

Während ich das Zitat "Lassen Sie die Daten für sich selbst sprechen" schon einmal gehört habe, habe ich mir keine Gedanken darüber gemacht, was impliziert wird. Ist meine obige Interpretation das, was dieses Zitat kanonisch impliziert?

Cliff AB
quelle
9
Lassen Sie das Zitat für sich selbst sprechen.
Mark L. Stone
@ MarkL.Stone: Ähnlich wie Daten werden Zitate mit Kontext besser verstanden
Cliff AB

Antworten:

8

Die Interpretation hängt vom Kontext ab, aber es gibt einige gemeinsame Kontexte, in denen dies auftritt. Die Aussage wird in der Bayes'schen Analyse häufig verwendet, um die Tatsache hervorzuheben, dass wir im Idealfall möchten, dass die posteriore Verteilung in der Analyse gegenüber früheren Annahmen robust ist, so dass der Effekt der Daten den posterioren Bereich "dominiert". Im Allgemeinen bedeutet das Zitat normalerweise, dass unser statistisches Modell der Struktur der Daten entsprechen soll, anstatt die Daten zu einer Interpretation zu zwingen, die eine nicht überprüfbare strukturelle Annahme des Modells darstellt.

Das bestimmte Zitat, auf das Sie sich beziehen, wird durch das zusätzliche Zitat ergänzt: "Das Modell muss den Daten folgen, nicht umgekehrt" (übersetzt aus Benzécri J (1973) L'Analyse des Données. Band II: L'Analyse des Correspondances . Dunod, p. 6). Benzécri argumentierte, dass statistische Modelle Struktur aus den Daten extrahieren sollten , anstatt Struktur aufzuerlegen. Er betrachtete die Verwendung explorativer grafischer Methoden als sehr wichtig, damit der Analytiker "die Daten sprechen lassen" kann.

Ben - Monica wieder einsetzen
quelle
(+1) Vor diesem Hintergrund impliziert das Zitat im ersten verknüpften Artikel, dass diese Methoden eher die empirische Kovarianzstruktur als eine modellbasierte Abhängigkeitsstruktur betrachten.
Cliff AB
1
Ja, ich denke das ist richtig. Es ist erwähnenswert, dass Benzécri behauptete, die Datenanalyse sei im Wesentlichen gleichbedeutend mit der Eigenzerlegung in PCA. Er wird mit den Worten zitiert: "Alles in allem bedeutet eine Datenanalyse in guter Mathematik einfach, Eigenvektoren zu suchen. Die ganze Wissenschaft (oder die Kunst) besteht darin, die richtige Matrix für die Diagonalisierung zu finden." (siehe Husson et al. 2016 , S. 2)
Ben - Reinstate Monica
2
Ha, das ist eine sehr interessante Behauptung für ihn. In diesem Zusammenhang ist das Zitat in der Zeitung viel sinnvoller.
Cliff AB
Ja, es ist ziemlich extrem!
Ben - Reinstate Monica
(+1). Während das Zitat auf den ersten Blick schwer zu widersprechen scheint (warum sollte es schließlich gut sein, etwas "aufzuzwingen"?), Zeigt der Fluch der Dimensionalität in der nichtparametrischen Statistik beispielsweise, dass es sozusagen so ist. Es ist einfacher, die Daten zu hören, die für sich selbst sprechen, wenn wir sie über ein parametrisches Modell abhören.
Christoph Hanck
1

Um 2005, als "Data Mining" die jüngste Bedrohung für den Statistikberuf darstellte, erinnere ich mich an ein Poster mit "Data Mining-Prinzipien", von denen eines "die Daten sprechen lassen" lautete (ich kann mich nicht erinnern, ob "für sich selbst"). war inbegriffen). Wenn Sie an Algorithmen denken, die als "Data Mining", Apriori und rekursive Partitionierung angesehen werden könnten, kommen Ihnen zwei Algorithmen in den Sinn, die ohne statistische Annahmen motiviert werden können und zu ziemlich einfachen Zusammenfassungen des zugrunde liegenden Datensatzes führen.

@Ben versteht mehr von der Geschichte des Satzes als ich, denke aber an das Zitat, wie es in der Zeitung zitiert wird:

MCA kann als Gegenstück zu PCA für kategoriale Daten angesehen werden und beinhaltet die Reduzierung der Datendimensionalität, um einen Unterraum bereitzustellen, der die Daten im Sinne einer Maximierung der Variabilität der projizierten Punkte am besten darstellt. Wie bereits erwähnt, wird es häufig ohne Bezugnahme auf probabilistische Modelle präsentiert, was der Idee von Benz´ecri [1973] entspricht, „die Daten für sich selbst sprechen zu lassen“.

Es scheint mir, dass die Prozedur von MCA apriori oder rekursiver Partitionierung (oder Hölle, dem arithmetischen Mittel für diese Angelegenheit) ähnelt, da sie ohne jegliche Modellierung motiviert werden kann und eine mechanische Operation auf einem Datensatz ist, der sinnvoll ist nach einigen ersten Prinzipien.

Es gibt ein Spektrum, in dem die Daten sprechen. Voll Bayesianische Modelle mit starken Priors wären an einem Ende. Frequentistische nichtparametrische Modelle wären näher am anderen Ende.

Ben Ogorek
quelle