Ich schreibe ein Beispiel und habe einige Daten erfunden. Ich möchte, dass dem Leser klar wird, dass es sich nicht um echte Daten handelt, aber ich möchte auch nicht den Eindruck von Böswilligkeit erwecken, da dies nur als Beispiel dient.
Es gibt keine (Pseudo-) Zufallskomponente für diese bestimmten Daten, daher scheint mir "simuliert" nicht angemessen zu sein. Wenn ich es fiktiv oder fabriziert nenne, erweckt es den Eindruck von betrügerischen Daten? Ist "erfunden" ein Wort, das in einen wissenschaftlichen Kontext passt?
Was ist die Terminologie in der statistischen Literatur für nicht simulierte erfundene Daten?
terminology
synthetic-data
Frans Rodenburg
quelle
quelle
Antworten:
Ich würde diese Daten wahrscheinlich "synthetisch" oder "künstlich" nennen, obwohl ich sie auch "simuliert" nennen könnte (die Simulation ist einfach sehr einfach).
quelle
Wenn Sie Ihre Daten als fiktiv bezeichnen möchten, befinden Sie sich in guter Gesellschaft, da dies der Begriff ist, mit dem Francis Anscombe sein mittlerweile berühmtes Quartett bezeichnet .
Von Anscombe, FJ (1973). " Graphs in Statistical Analysis ", Am. Stat. 27 (1):
Aber ich denke, Ihre Vorsicht ist gut angebracht, da mein OED (v4) darauf hinzudeuten scheint, dass diese Verwendung von fiktiven Inhalten überholt ist
quelle
In der IT nennen wir es oft Modelldaten , die über ein Modell (Anwendung) präsentiert werden können.
Die Modelldaten können auch über eine voll funktionsfähige Anwendung dargestellt werden, um beispielsweise die Funktionalität der Anwendung auf kontrollierte Weise zu testen.
quelle
Ich habe wiederholt Vorschläge für den Begriff "synthetische Daten" gesehen. Dieser Begriff hat jedoch eine weit verbreitete und ganz andere Bedeutung als das, was Sie ausdrücken möchten: https://en.wikipedia.org/wiki/Synthetic_data
Ich bin mir nicht sicher, ob es einen allgemein akzeptierten wissenschaftlichen Begriff gibt, aber der Begriff "Beispieldaten" scheint schwer zu missverstehen zu sein.
quelle
Ich habe den Begriff "gefälschte Daten" ziemlich häufig gefunden. Ich denke, es könnte einige negative Konnotationen haben, aber ich habe es oft genug gehört, dass es für mich überhaupt nicht negativ ist.
FWIW, Andrew Gelman benutzt es auch:
https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/
https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-like-fake-data-simulation-and-icant-stop-talking-about-it/
https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false
Eine schnelle Google-Suche nach "gefälschten Daten" liefert viele Ergebnisse, die den Begriff ähnlich zu verwenden scheinen:
https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/
http://modernstatisticalworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html
https://clayford.github.io/dwir/dwr_12_generating_data.html
Und es gibt sogar ein
fakeR
Paket, das vermuten lässt, dass dies relativ häufig vorkommt: https://cran.r-project.org/web/packages/fakeR/fakeR.pdfquelle
Ich verwende ein anderes Wort, je nachdem, wie ich die Daten verwende. Wenn ich den erfundenen Datensatz gefunden habe und meinen Algorithmus auf bestätigende Weise darauf gerichtet habe, ist das Wort "synthetisch" in Ordnung.
Häufig habe ich die Daten jedoch immer dann erfunden, wenn ich diese Art von Daten verwende, um die Fähigkeiten meines Algorithmus zu demonstrieren. Mit anderen Worten, ich habe Daten speziell erfunden, um "gute Ergebnisse" zu erzielen. Unter solchen Umständen mag ich den Begriff "erfunden", zusammen mit einer Erklärung meiner Erwartungen an die Daten. Das liegt daran, dass ich nicht möchte, dass jemand den Fehler macht zu denken, ich hätte meinen Algorithmus auf einen beliebigen synthetischen Datensatz gerichtet, den ich herumliegen sah, und der hat wirklich gut funktioniert. Wenn ich Daten ausgewählt habe (bis ich sie tatsächlich erstellt habe), damit mein Algorithmus gut funktioniert, sage ich das auch. Dies liegt daran, dass solche Ergebnisse den Nachweis erbringen, dass mein Algorithmus dies kanngut funktionieren, aber nur sehr schwache Beweise dafür liefern, dass der Algorithmus im Allgemeinen gut funktioniert . Das Wort "erfunden" fasst die Tatsache gut zusammen, dass ich die Daten im Hinblick auf "gute Ergebnisse" a priori ausgewählt habe.
Nein, aber es ist wichtig, die Quelle eines Datensatzes und Ihre A-priori-Erwartungen als Experimentator zu kennen, wenn Sie Ihre Ergebnisse zu einem Datensatz melden. Der Begriff "Betrug" umfasst ausdrücklich den Aspekt, etwas vertuscht oder direkt belogen zu haben. Die erste Möglichkeit, Betrug in der Wissenschaft zu vermeiden, besteht darin, einfach ehrlich und offen über die Art Ihrer Daten und Ihre Erwartungen zu sein. Mit anderen Worten, wenn Ihre Daten fabriziert sind und Sie in keiner Weise so viel aussagen , und es eine Art Erwartung gibt, dass die Daten nicht fabriziert sind, oder schlimmer noch, Sie behaupten, dass die Daten in einer nicht fabrizierten Art gesammelt werden natürlich, dann ist das"Betrug". Mach das Ding nicht. Wenn Sie ein Synonym für den Begriff "fabriziert" verwenden möchten, der "besser klingt", wie "synthetisch", wird Sie niemand bemängeln, aber ich glaube nicht, dass irgendjemand außer Ihnen den Unterschied bemerken wird.
Eine Randnotiz:
Weniger offensichtlich sind Umstände, in denen man behauptet, von vornherein Erwartungen gehabt zu haben, die tatsächlich nachträgliche Erklärungen sind . Dies ist auch eine betrügerische Analyse von Daten.
Es besteht die Gefahr, dass Daten gezielt ausgewählt werden, um die Fähigkeiten eines Algorithmus "zur Geltung zu bringen", was bei synthetischen Daten häufig der Fall ist.
Es gibt kein Problem dabei, so lange , wie Sie sind ehrlich und offen über das, was Sie getan haben. Wenn Sie Probleme mit der Erstellung eines Datensatzes haben, der "gute Ergebnisse" liefert, sagen Sie dies. Solange Sie dem Leser die Schritte mitteilen, die Sie bei Ihrer Datenanalyse unternommen haben, verfügen diese über die erforderlichen Informationen, um die Beweise für oder gegen Ihre Hypothesen effektiv abzuwägen. Wenn Sie nicht ehrlich oder nicht direkt sind , kann dies den Eindruck erwecken, dass Ihre Beweise stärker sind als sie wirklich sind. Wenn Sie WISSENTLICH weniger sind als ehrlich und unverblümt zum Wohl Ihrer Aussage zu machen scheint stärker , als es wirklich ist, dann ist das , in der Tat, betrügerische.
Auf jeden Fall bevorzuge ich deshalb den Begriff "erfunden" für solche Datensätze, zusammen mit einer kurzen Erklärung, dass sie tatsächlich unter Berücksichtigung einer Hypothese ausgewählt wurden. "Erfunden" vermittelt den Eindruck, dass ich nicht nur einen synthetischen Datensatz erstellt habe, sondern dies auch mit bestimmten Absichten, die die Tatsache widerspiegeln, dass meine Hypothese bereits vor der Erstellung meines Datensatzes gültig war.
Zur Veranschaulichung an einem Beispiel: Sie erstellen einen Algorithmus zur Analyse beliebiger Zeitreihen. Sie nehmen an, dass dieser Algorithmus "gute Ergebnisse" liefert, wenn auf Zeitreihen verwiesen wird. Betrachten Sie nun die folgenden zwei Möglichkeiten: 1) Sie erstellen einige synthetische Daten, die so aussehen, wie Sie es von Ihrem Algorithmus erwarten. Sie analysieren diese Daten und der Algorithmus funktioniert gut. 2) Sie greifen auf einige synthetische Datensätze zu, weil sie verfügbar sind, warum nicht. Sie analysieren diese Daten und der Algorithmus funktioniert gut. Welcher dieser beiden Umstände liefert den besseren Beweis dafür, dass Ihr Algorithmus bei beliebigen Zeitreihen eine gute Leistung erbringt? Natürlich ist es Option 2. Es könnte jedoch einfach sein, in Option 1 oder Option 2 zu melden, dass wir Algorithmus angewendet habenA D x.y
tl; dr
Verwenden Sie einen beliebigen Begriff: "synthetisch", "erfunden", "erfunden", "fiktiv". Der von Ihnen verwendete Begriff reicht jedoch nicht aus, um sicherzustellen, dass Ihre Ergebnisse nicht irreführend sind . Stellen Sie sicher, dass Sie in Ihrem Bericht genau wissen, wie die Daten entstanden sind, einschließlich Ihrer Erwartungen an die Daten und der Gründe, warum Sie die von Ihnen ausgewählten Daten ausgewählt haben.
quelle
Erstens gibt es keinen Grund, es nicht als "Datensatz" zu bezeichnen. Es gibt keine allgemein vereinbarten Begriffe für "gefälschte" vs "simulierte" vs ... Daten. Wenn das Ziel vollständig klar sein soll, ist es am besten, einen Satz anstatt eines Wortes zu verwenden, um zu bestimmen, um was es sich bei diesem Datensatz handelt. Danach können Sie die Bezeichnung lockern und Ihre Daten einfach als Daten bezeichnen.
"Synthetisch", "künstlich" unterscheidet sich in meinen Augen nicht von anderen MCMC-abgetasteten "simulierten" Datensätzen. Durch die Verwendung eines Quasirandom-Zahlengenerators mit festem Startwert (wie es das richtige Training vorschreibt) wird auch ein synthetischer oder künstlicher Datensatz erstellt.
Wenn es darum geht, einen Datensatz für eine bestimmte Illustration zu kuratieren, anstatt eine Instanz oder eine Realisierung aus einem Wahrscheinlichkeitsmodell zu generieren, ist es meiner Meinung nach besser, einen solchen Datensatz als " Beispieldatensatz " zu bezeichnen. Daten wie diese ähneln Anscombes Quartett: völlig abstrakt und nicht plausibel, aber zur Veranschaulichung eines Punktes gedacht.
quelle
In der Biologie werden Analysen manchmal anhand eines Datensatzes mythischer Tiere demonstriert. Ob explizit angegeben wird, dass die Daten simuliert werden, liegt beim Autor / Prüfer.
Ein Leitfaden für Ökologen zum Tiermodell, 2009
Feste Effektvarianz und Schätzung von Wiederhol- und Heritabilitäten: Probleme und Lösungen, 2017
quelle
Intuitiv würde ich zum Begriff "Dummy-Daten" gehen, in dem gleichen Sinne, wie "Lorem ipsum ..." "Dummy-Text" genannt wird. Das Wort "Dummy" ist für Menschen mit unterschiedlichem Hintergrund recht allgemein und leicht zu verstehen und wird daher von Lesern mit einem weniger statistischen Hintergrund weniger häufig falsch interpretiert.
quelle
Daten sind die lateinische Wort für gegeben , die in der heutigen Zeit als Abkürzung für verwendet gegebenen Satz von aufgezeichneten Tatsachen . In gewisser Weise wäre es ein offener Widerspruch , sich auf gefälschte Aufnahmen als eine Art gegebener Tatsachen zu beziehen .
Aufgrund der zunehmenden Verwendung von Daten zur einfachen Bezugnahme auf Aufzeichnungen - ungeachtet der ursprünglichen Vermutung, dass Aufzeichnungen Tatsachen enthalten - verstehen wir uns jedoch glücklich, wenn wir über Aufzeichnungen sprechen, die möglicherweise wahrheitsgemäß sind oder nicht - daher echte / gefälschte Daten.
Im Folgenden fasse ich meine Erfahrungen im Umgang mit fabrizierten Aufnahmen zusammen. Das verwendete Etikett hängt davon ab, ob man annimmt, dass es sich bei Daten um erfundene Aufzeichnungen handelt, die zur Ermöglichung weiterer Analysen einigermaßen realistisch aussehen sollen, oder um Daten als Rechenlast.
quelle