Bester Begriff für erfundene Daten?

23

Ich schreibe ein Beispiel und habe einige Daten erfunden. Ich möchte, dass dem Leser klar wird, dass es sich nicht um echte Daten handelt, aber ich möchte auch nicht den Eindruck von Böswilligkeit erwecken, da dies nur als Beispiel dient.

Es gibt keine (Pseudo-) Zufallskomponente für diese bestimmten Daten, daher scheint mir "simuliert" nicht angemessen zu sein. Wenn ich es fiktiv oder fabriziert nenne, erweckt es den Eindruck von betrügerischen Daten? Ist "erfunden" ein Wort, das in einen wissenschaftlichen Kontext passt?

Was ist die Terminologie in der statistischen Literatur für nicht simulierte erfundene Daten?

Frans Rodenburg
quelle
9
Nur um einen Kommentar hinzuzufügen, der sich über mehrere Antworten erstreckt: "Synthetisch" ist ein gutes Wort für erfundene Daten, die so realistisch wie möglich aussehen sollen, während "Mock-up" Daten vorschlägt, die erstellt wurden, um etwas Bestimmtes zu demonstrieren. Zum Beispiel können "Mock-up" -Daten absurde Ausreißer enthalten, um zu demonstrieren, wie wichtig es ist, mit Ausreißern richtig umzugehen.
Cort Ammon - Setzen Sie Monica
Ich persönlich bevorzuge den Begriff "simuliert" und bin ihm in der statistischen Literatur am häufigsten begegnet (dh "wir haben Simulationen durchgeführt, um unser Modell mit X, Y, Z ... zu vergleichen"
Samir Rachid Zaim

Antworten:

45

Ich würde diese Daten wahrscheinlich "synthetisch" oder "künstlich" nennen, obwohl ich sie auch "simuliert" nennen könnte (die Simulation ist einfach sehr einfach).

Louis Cialdella
quelle
30
Man hört "Spielzeugdaten", "Spielzeugbeispiel" und "Dummy-Daten". Ich stimme auch zu, dass "simuliert" auch ohne Zufallszahlen gut passen könnte.
Rolando2
7
"Illustrative Daten" oder "Beispieldaten" könnten ebenfalls funktionieren
Henry
8
+1 ' synthetische Daten ' und ' Spielzeugbeispiel ' sind Begriffe, die ich je nach Anlass als 'konstruiertes Beispiel' verwenden könnte. Manchmal sage ich "illustratives Beispiel" oder etwas Ähnliches, insbesondere wenn das Beispiel explizit so konstruiert wurde, dass es bestimmte Merkmale aufweist (z. B. wenn es als Gegenbeispiel zu einer falschen Vorstellung entworfen wurde).
Glen_b
1
Ich neige dazu, Spielzeugdaten (ohne künstliche oder simulierte ) für echte (gemessene) Datensätze zu verwenden, die ich "missbrauche", um etwas zu demonstrieren.
cbeleites unterstützt Monica
1
Es hängt ein wenig von Ihrer Anwendung ab, was am besten funktioniert. Zum Beispiel mache ich auch ein Projekt mit "gefälschten" Daten, aber ein anderer Teil des Projekts beinhaltet die Verwendung einer Computermodellsimulation. Daher könnte es den Leser verwirren, wenn ich die gefälschten Daten als "simuliert" bezeichne, was fälschlicherweise impliziert, dass die Daten aus der Simulation stammen. Ich habe mich also auf "künstlich" verlassen und die Daten manchmal als "hergestellt" beschrieben. Ich persönlich würde "synthetisch" vermeiden, da dieser Begriff implizieren würde, dass die Daten eine Art Kombination anderer Datenquellen sind (eine "Synthese" von z. B. Daten A und Daten B).
Ceph
12

Wenn Sie Ihre Daten als fiktiv bezeichnen möchten, befinden Sie sich in guter Gesellschaft, da dies der Begriff ist, mit dem Francis Anscombe sein mittlerweile berühmtes Quartett bezeichnet .

Von Anscombe, FJ (1973). " Graphs in Statistical Analysis ", Am. Stat. 27 (1):

Einige dieser Punkte werden durch vier fiktive Datensätze veranschaulicht, die jeweils aus elf (x, y) Paaren bestehen und in der Tabelle dargestellt sind.

Aber ich denke, Ihre Vorsicht ist gut angebracht, da mein OED (v4) darauf hinzudeuten scheint, dass diese Verwendung von fiktiven Inhalten überholt ist

fiktiv , a.

(fɪkɪtˈs)

[f. L. fictīci-us (f. Finger zur Mode, Schein) + -ous: siehe -itious.]

1.1 † a.1.a Künstlich im Gegensatz zu natürlich (obs.). b.1.b Fälschung, Nachahmung, Täuschung; nicht echt.

AkselA
quelle
In Bezug auf die Lesbarkeit sind der erste Vorschlag und die Kommentare eine viel bessere Alternative. Es müssen keine ungewöhnlichen, komplizierten Wörter verwendet werden.
Tim
1
@ Tim: Ich möchte zustimmen, aber ich bin nicht ganz sicher, was ich zustimmen würde. Wollen Sie damit sagen, dass Fiktion eine schlechte Wahl wäre, obwohl sie zuvor in einem ähnlichen Kontext verwendet wurde? Weil ich das sage.
AkselA
7

In der IT nennen wir es oft Modelldaten , die über ein Modell (Anwendung) präsentiert werden können.

Die Modelldaten können auch über eine voll funktionsfähige Anwendung dargestellt werden, um beispielsweise die Funktionalität der Anwendung auf kontrollierte Weise zu testen.

ErikE
quelle
5
Guter Punkt, aber ich glaube, dass Mockup-Daten und simulierte Daten nicht genau gleich sind. Wenn Sie Modelldaten für Komponententests erstellen, benötigen Sie diese nur, um einige grundlegende Eigenschaften der realen Daten beizubehalten. Wenn Sie simulierte Daten für statistische Analysen verwenden, werden in der Regel komplexere Datenbeispiele verwendet.
Tim
2
Ich glaube immer noch, dass ErikE richtig ist. Wenn Sie analytischen Code schreiben, benötigen Sie entweder das Original oder Scheindaten. Mock-Daten können so groß sein, wie Sie möchten.
Mathijs Segers
1
Praktiken variieren wahrscheinlich ebenso wie die Verwendung von Terminologie, denke ich. Für viele unserer Tests und Analysen verwenden wir Live-Daten, die aus Gründen der Sicherheit und Anonymität "entschärft" wurden. Für andere erstellen wir Bare-Bones-Daten, so wie es Tim beschreibt. Ich habe keine feste Meinung, aber wir verwenden den Begriff Mockup ziemlich locker.
ErikE
3

Ich habe wiederholt Vorschläge für den Begriff "synthetische Daten" gesehen. Dieser Begriff hat jedoch eine weit verbreitete und ganz andere Bedeutung als das, was Sie ausdrücken möchten: https://en.wikipedia.org/wiki/Synthetic_data

Ich bin mir nicht sicher, ob es einen allgemein akzeptierten wissenschaftlichen Begriff gibt, aber der Begriff "Beispieldaten" scheint schwer zu missverstehen zu sein.

srass
quelle
1
Dieser Artikel scheint ein wenig verwirrt zu sein - das Verhältnis zur Anonymisierung ist ziemlich dürftig.
Matt Krause
+1, aber ich stimme dem vorherigen Kommentar zu: Abgesehen von den Absätzen 2 (synthetisierte Daten sind eine Art anonymisierter Daten), scheint der Rest dieses Wikipedia-Artikels zu beschreiben, was der Fragesteller will. Dh realistisch aussehende erfundene Daten.
Darren Cook
3

Ich habe den Begriff "gefälschte Daten" ziemlich häufig gefunden. Ich denke, es könnte einige negative Konnotationen haben, aber ich habe es oft genug gehört, dass es für mich überhaupt nicht negativ ist.

FWIW, Andrew Gelman benutzt es auch:

https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/

https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-like-fake-data-simulation-and-icant-stop-talking-about-it/

https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false

Eine schnelle Google-Suche nach "gefälschten Daten" liefert viele Ergebnisse, die den Begriff ähnlich zu verwenden scheinen:

https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/

http://modernstatisticalworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html

https://clayford.github.io/dwir/dwr_12_generating_data.html

Und es gibt sogar ein fakeRPaket, das vermuten lässt, dass dies relativ häufig vorkommt: https://cran.r-project.org/web/packages/fakeR/fakeR.pdf

mkt - Setzen Sie Monica wieder ein
quelle
2

Ich verwende ein anderes Wort, je nachdem, wie ich die Daten verwende. Wenn ich den erfundenen Datensatz gefunden habe und meinen Algorithmus auf bestätigende Weise darauf gerichtet habe, ist das Wort "synthetisch" in Ordnung.

Häufig habe ich die Daten jedoch immer dann erfunden, wenn ich diese Art von Daten verwende, um die Fähigkeiten meines Algorithmus zu demonstrieren. Mit anderen Worten, ich habe Daten speziell erfunden, um "gute Ergebnisse" zu erzielen. Unter solchen Umständen mag ich den Begriff "erfunden", zusammen mit einer Erklärung meiner Erwartungen an die Daten. Das liegt daran, dass ich nicht möchte, dass jemand den Fehler macht zu denken, ich hätte meinen Algorithmus auf einen beliebigen synthetischen Datensatz gerichtet, den ich herumliegen sah, und der hat wirklich gut funktioniert. Wenn ich Daten ausgewählt habe (bis ich sie tatsächlich erstellt habe), damit mein Algorithmus gut funktioniert, sage ich das auch. Dies liegt daran, dass solche Ergebnisse den Nachweis erbringen, dass mein Algorithmus dies kanngut funktionieren, aber nur sehr schwache Beweise dafür liefern, dass der Algorithmus im Allgemeinen gut funktioniert . Das Wort "erfunden" fasst die Tatsache gut zusammen, dass ich die Daten im Hinblick auf "gute Ergebnisse" a priori ausgewählt habe.

"Gibt das den Eindruck von betrügerischen Daten?"

Nein, aber es ist wichtig, die Quelle eines Datensatzes und Ihre A-priori-Erwartungen als Experimentator zu kennen, wenn Sie Ihre Ergebnisse zu einem Datensatz melden. Der Begriff "Betrug" umfasst ausdrücklich den Aspekt, etwas vertuscht oder direkt belogen zu haben. Die erste Möglichkeit, Betrug in der Wissenschaft zu vermeiden, besteht darin, einfach ehrlich und offen über die Art Ihrer Daten und Ihre Erwartungen zu sein. Mit anderen Worten, wenn Ihre Daten fabriziert sind und Sie in keiner Weise so viel aussagen , und es eine Art Erwartung gibt, dass die Daten nicht fabriziert sind, oder schlimmer noch, Sie behaupten, dass die Daten in einer nicht fabrizierten Art gesammelt werden natürlich, dann ist das"Betrug". Mach das Ding nicht. Wenn Sie ein Synonym für den Begriff "fabriziert" verwenden möchten, der "besser klingt", wie "synthetisch", wird Sie niemand bemängeln, aber ich glaube nicht, dass irgendjemand außer Ihnen den Unterschied bemerken wird.

Eine Randnotiz:

Weniger offensichtlich sind Umstände, in denen man behauptet, von vornherein Erwartungen gehabt zu haben, die tatsächlich nachträgliche Erklärungen sind . Dies ist auch eine betrügerische Analyse von Daten.

Es besteht die Gefahr, dass Daten gezielt ausgewählt werden, um die Fähigkeiten eines Algorithmus "zur Geltung zu bringen", was bei synthetischen Daten häufig der Fall ist.

DHHDD

HDHD

Es gibt kein Problem dabei, so lange , wie Sie sind ehrlich und offen über das, was Sie getan haben. Wenn Sie Probleme mit der Erstellung eines Datensatzes haben, der "gute Ergebnisse" liefert, sagen Sie dies. Solange Sie dem Leser die Schritte mitteilen, die Sie bei Ihrer Datenanalyse unternommen haben, verfügen diese über die erforderlichen Informationen, um die Beweise für oder gegen Ihre Hypothesen effektiv abzuwägen. Wenn Sie nicht ehrlich oder nicht direkt sind , kann dies den Eindruck erwecken, dass Ihre Beweise stärker sind als sie wirklich sind. Wenn Sie WISSENTLICH weniger sind als ehrlich und unverblümt zum Wohl Ihrer Aussage zu machen scheint stärker , als es wirklich ist, dann ist das , in der Tat, betrügerische.

Auf jeden Fall bevorzuge ich deshalb den Begriff "erfunden" für solche Datensätze, zusammen mit einer kurzen Erklärung, dass sie tatsächlich unter Berücksichtigung einer Hypothese ausgewählt wurden. "Erfunden" vermittelt den Eindruck, dass ich nicht nur einen synthetischen Datensatz erstellt habe, sondern dies auch mit bestimmten Absichten, die die Tatsache widerspiegeln, dass meine Hypothese bereits vor der Erstellung meines Datensatzes gültig war.

Zur Veranschaulichung an einem Beispiel: Sie erstellen einen Algorithmus zur Analyse beliebiger Zeitreihen. Sie nehmen an, dass dieser Algorithmus "gute Ergebnisse" liefert, wenn auf Zeitreihen verwiesen wird. Betrachten Sie nun die folgenden zwei Möglichkeiten: 1) Sie erstellen einige synthetische Daten, die so aussehen, wie Sie es von Ihrem Algorithmus erwarten. Sie analysieren diese Daten und der Algorithmus funktioniert gut. 2) Sie greifen auf einige synthetische Datensätze zu, weil sie verfügbar sind, warum nicht. Sie analysieren diese Daten und der Algorithmus funktioniert gut. Welcher dieser beiden Umstände liefert den besseren Beweis dafür, dass Ihr Algorithmus bei beliebigen Zeitreihen eine gute Leistung erbringt? Natürlich ist es Option 2. Es könnte jedoch einfach sein, in Option 1 oder Option 2 zu melden, dass wir Algorithmus angewendet habenADx.y

tl; dr

Verwenden Sie einen beliebigen Begriff: "synthetisch", "erfunden", "erfunden", "fiktiv". Der von Ihnen verwendete Begriff reicht jedoch nicht aus, um sicherzustellen, dass Ihre Ergebnisse nicht irreführend sind . Stellen Sie sicher, dass Sie in Ihrem Bericht genau wissen, wie die Daten entstanden sind, einschließlich Ihrer Erwartungen an die Daten und der Gründe, warum Sie die von Ihnen ausgewählten Daten ausgewählt haben.

Scott
quelle
Obwohl sich die Antworten hier überschneiden und fast alle gute Punkte bringen, vermittelt dieser Punkt meiner Meinung nach am besten den entscheidenden Punkt, dass kein einziger Begriff allen Lesern die Absicht vermitteln wird, die hinter der Erstellung von Daten steckt. Die Gründe können von nicht nur angemessen, sondern auch für den Zweck unerlässlich sein, über Faulheit (schlechte Einführungstexte) bis hin zu Betrug und Betrug. Es kann eine gute Idee sein, zu erklären, warum Sie dies ausführlich tun.
Nick Cox
... Gründe ...
Nick Cox
1

Erstens gibt es keinen Grund, es nicht als "Datensatz" zu bezeichnen. Es gibt keine allgemein vereinbarten Begriffe für "gefälschte" vs "simulierte" vs ... Daten. Wenn das Ziel vollständig klar sein soll, ist es am besten, einen Satz anstatt eines Wortes zu verwenden, um zu bestimmen, um was es sich bei diesem Datensatz handelt. Danach können Sie die Bezeichnung lockern und Ihre Daten einfach als Daten bezeichnen.

"Synthetisch", "künstlich" unterscheidet sich in meinen Augen nicht von anderen MCMC-abgetasteten "simulierten" Datensätzen. Durch die Verwendung eines Quasirandom-Zahlengenerators mit festem Startwert (wie es das richtige Training vorschreibt) wird auch ein synthetischer oder künstlicher Datensatz erstellt.

Wenn es darum geht, einen Datensatz für eine bestimmte Illustration zu kuratieren, anstatt eine Instanz oder eine Realisierung aus einem Wahrscheinlichkeitsmodell zu generieren, ist es meiner Meinung nach besser, einen solchen Datensatz als " Beispieldatensatz " zu bezeichnen. Daten wie diese ähneln Anscombes Quartett: völlig abstrakt und nicht plausibel, aber zur Veranschaulichung eines Punktes gedacht.

AdamO
quelle
1

In der Biologie werden Analysen manchmal anhand eines Datensatzes mythischer Tiere demonstriert. Ob explizit angegeben wird, dass die Daten simuliert werden, liegt beim Autor / Prüfer.

Ein Leitfaden für Ökologen zum Tiermodell, 2009

Diese Tutorials beschreiben eine Reihe quantitativer genetischer Analysen an einer Population von Greifen (die einen Kompromiss zwischen der Vogel- und der Säugetierneigung der Autoren widerspiegeln). Da es sich bei dem Greif um ein mythisches Tier handelt, wurden die angegebenen Daten unbedingt simuliert.

Feste Effektvarianz und Schätzung von Wiederhol- und Heritabilitäten: Probleme und Lösungen, 2017

Um dies zu veranschaulichen, kehren wir zum Einhorn-Datensatz von Wilson (2008) zurück. Es ist bekannt, dass die Hornlänge bei Einhörnern je nach individueller Körpermasse variiert (Steigung: β = 0,403 für ein vollständiges Modell, einschließlich Alter, Geschlecht und deren Wechselwirkung).

DA Wells
quelle
1
Interessanter Ansatz! Ich denke, dies könnte großartig für den Unterricht von Biologiestudenten-Statistiken sein. Ich bin mir jedoch nicht sicher, ob dies den richtigen Eindruck hinterlassen würde
Frans Rodenburg,
0

Intuitiv würde ich zum Begriff "Dummy-Daten" gehen, in dem gleichen Sinne, wie "Lorem ipsum ..." "Dummy-Text" genannt wird. Das Wort "Dummy" ist für Menschen mit unterschiedlichem Hintergrund recht allgemein und leicht zu verstehen und wird daher von Lesern mit einem weniger statistischen Hintergrund weniger häufig falsch interpretiert.

Mathijs
quelle
2
Wenn es sich um einen Regressionskontext handelt, würde ich vermeiden, "Dummy" zu überladen, damit Sie keine Dummy-Variablen haben, die Dummy-Daten codieren.
Matt Krause
Ich stimme zu, ich würde es persönlich vermeiden, da "Dummy" bereits eine feste Konnotation in der Regression hat. Angesichts der Fülle verfügbarer Begriffe ist es wahrscheinlich am besten, Begriffe zu vermeiden, die für verschiedene Personen unterschiedliche Bedeutungen haben können.
Samir Rachid Zaim
0

Daten sind die lateinische Wort für gegeben , die in der heutigen Zeit als Abkürzung für verwendet gegebenen Satz von aufgezeichneten Tatsachen . In gewisser Weise wäre es ein offener Widerspruch , sich auf gefälschte Aufnahmen als eine Art gegebener Tatsachen zu beziehen .

Aufgrund der zunehmenden Verwendung von Daten zur einfachen Bezugnahme auf Aufzeichnungen - ungeachtet der ursprünglichen Vermutung, dass Aufzeichnungen Tatsachen enthalten - verstehen wir uns jedoch glücklich, wenn wir über Aufzeichnungen sprechen, die möglicherweise wahrheitsgemäß sind oder nicht - daher echte / gefälschte Daten.

Im Folgenden fasse ich meine Erfahrungen im Umgang mit fabrizierten Aufnahmen zusammen. Das verwendete Etikett hängt davon ab, ob man annimmt, dass es sich bei Daten um erfundene Aufzeichnungen handelt, die zur Ermöglichung weiterer Analysen einigermaßen realistisch aussehen sollen, oder um Daten als Rechenlast.

  • In Kreisen von Analytik / Data Science / Strategischen Beratungsunternehmen wird am häufigsten auf eine Sammlung von Aufzeichnungen eingegangen, die unter realistischen Annahmen als synthetische Daten erstellt wurden - und gelegentlich als simulierte Daten . Mit einfachen Annahmen erstellte Aufzeichnungen werden als Spielzeugdatensatz bezeichnet .
  • Unter Software-Ingenieuren sind Fake-Daten , Dummy-Daten , Make-up-Daten und Mock-up-Daten häufige Bezeichnungen, die hauptsächlich auf Aufzeichnungen hinweisen, die nicht unbedingt realistische Eigenschaften haben sollen, sondern nur grundlegende Eigenschaften mit den Originaldaten teilen (Altersdaten sind immer numerisch) , E-Mail-Adressen immer Zeichenfolgen, die "@" enthalten).
  • Akademische Forscher würden einen realistischen Satz von fabrizierten Aufzeichnungen als Pseudodaten oder simulierte Daten bezeichnen . In einigen Kreisen kann der Satz von Beobachtungen, wenn er das Ergebnis einer Monte-Carlo-Simulation ist, umgangssprachlich als Monte-Carlo bezeichnet werden . Semirealistische Aufzeichnungen werden häufig zu Illustrationszwecken oder zum Testen alternativer Hypothesen verwendet und als Spielzeugdatensatz bezeichnet
Famargar
quelle
2
"Monte Carlo" ist der Name der Methode, daher wäre der "umgangssprachliche" Name sehr irreführend.
Tim
@ Tim in der Tat kann es als irreführend angesehen werden. Sprache ist jedoch nur ein Instrument, das auf Konsens in einer Gemeinschaft beruht, um sich auf etwas zu beziehen. So sehr, dass wir auf dieser Seite zu Aufnahmen und Messungen beziehen als gegeben (englisch für Latein Daten ). Wenn ich Ihren Standpunkt übernehmen würde, wäre es höchst fraglich , simulierte Messungen als Fälschung zu behandeln .
Famargar
Ich hoffe, Sie werden jetzt sehen, dass die Bezugnahme auf eine „Monte-Carlo-Simulation“ als einfach „Monte-Carlo“ eine moderne Version der Bezugnahme auf „gegebene Beobachtungen“ als „gegeben“ ist. Ich habe meine Antwort überarbeitet, um diese und weitere Überlegungen zur Bedeutung im Vergleich zur tatsächlichen Verwendung des Wortes „Daten“ zu berücksichtigen.
Famargar
1
"Akademische Forscher bezeichnen realistische Aufzeichnungen am häufigsten als Pseudodaten": Ich kann mich nicht erinnern, diesen Begriff in mehr als 40 Jahren akademischer Forschung jemals gesehen zu haben. "Akademiker haben in der Regel keine Verwendung für unrealistische Aufnahmen": Entschuldigung, aber das scheint ganz falsch. Wissenschaftler in vielen, vielen Bereichen verwenden Simulationen verschiedener Art. Auch unrealistische Simulationen können hilfreich sein, z. B. ist die Variabilität normaler Stichproben ein wichtiger Kontext für die Beurteilung von Nichtnormalitäten.
Nick Cox
@NickCox Pseudodaten werden in der Physik häufig verwendet, und ich habe sie in der Biologie und Statistik gesehen. Würde neugierig sein zu wissen, was dein Feld ist und wie sich dein Feld auf Simulationen bezieht. Bei den unrealistischen Daten habe ich zwischen unrealistischen und halbrealistischen Daten unterschieden. Habe ich deinen Use Case verpasst?
Famargar