Als Kontext: Wenn ich mit einem sehr großen Datensatz arbeite, werde ich manchmal gefragt, ob wir einen synthetischen Datensatz erstellen können, in dem wir die Beziehung zwischen Prädiktoren und der Antwortvariablen oder die Beziehungen zwischen Prädiktoren "kennen".
Im Laufe der Jahre scheinen mir entweder einmalige synthetische Datensätze zu begegnen, die so aussehen, als wären sie ad hoc zusammengestellt worden, oder strukturiertere Datensätze, die für die vom Forscher vorgeschlagene Modellierungsmethode besonders günstig erscheinen.
Ich glaube, dass ich Standardmethoden für die Erstellung von synthetischen Datensätzen übersehen habe. Obwohl Bootstrap Resampling eine verbreitete Methode zur Erstellung von synthetischen Datensätzen ist, erfüllt es nicht die Bedingung, dass wir die Struktur a priori kennen . Darüber hinaus erfordert der Austausch von Bootstrap-Samples mit anderen im Wesentlichen den Austausch von Daten anstelle eines Datenerzeugungsverfahrens.
Wenn wir eine parametrische Verteilung an die Daten anpassen oder ein hinreichend genau parametrisiertes Modell finden können, ist dies ein Beispiel, in dem wir synthetische Datensätze generieren können.
Welche anderen Methoden gibt es? Ich interessiere mich besonders für hochdimensionale Daten, spärliche Daten und Zeitreihendaten. Für hochdimensionale Daten würde ich nach Methoden suchen, mit denen sich interessante Strukturen erzeugen lassen (z. B. Kovarianzstrukturen, lineare Modelle, Bäume usw.). Für Zeitreihendaten aus Verteilungen über FFTs, AR-Modelle oder verschiedene andere Filter- oder Vorhersagemodelle scheint dies ein Anfang zu sein. Bei spärlichen Daten erscheint die Reproduktion eines Sparsity-Musters sinnvoll.
Ich glaube, das kratzt nur an der Oberfläche - das sind heuristische, keine formalen Praktiken. Gibt es Referenzen oder Ressourcen zur Generierung synthetischer Daten, die den Praktikern bekannt sein sollten?
Anmerkung 1: Mir ist klar, dass sich diese Frage mit der Literatur befasst, wie man Daten wie ein bestimmtes Zeitreihenmodell erzeugen kann. Die Unterscheidung erfolgt hier nach Praktiken, insbesondere um eine bekannte Struktur (meine Frage) gegenüber der Ähnlichkeit / Wiedergabetreue mit einem vorhandenen Datensatz anzugeben. In meinem Fall ist es nicht notwendig, Ähnlichkeit zu haben, genauso wenig wie eine bekannte Struktur, obwohl Ähnlichkeit der Unähnlichkeit vorgezogen wird. Ein exotischer synthetischer Datensatz, für den ein Modell vielversprechend ist, wird einer realistischen Simulation vorgezogen.
Anmerkung 2: Der Wikipedia-Eintrag für synthetische Daten weist darauf hin, dass sich Leuchten wie Rubin und Fienberg mit diesem Problem befasst haben, obwohl ich keine Referenzen zu Best Practices gefunden habe. Es wäre interessant zu wissen, was zum Beispiel mit den Annals of Applied Statistics (oder dem AOS) oder in Überprüfungsarbeiten in diesen oder anderen Zeitschriften passieren würde. In einfachen und skurrilen Worten kann man fragen, wo die Schwelle zwischen "(akzeptabel) gekocht" und "zu gekocht" besteht?
Anmerkung 3: Obwohl dies keine Auswirkung auf die Frage hat, besteht das Verwendungsszenario in der Modellierung unterschiedlich großer, hochdimensionaler Datensätze, wobei die Forschungsagenda darin besteht , die Struktur der Daten (sowohl von Mensch als auch Maschine ;-)) zu lernen. Im Gegensatz zu univariaten, bivariaten und anderen niedrigdimensionalen Szenarien lässt sich die Struktur nicht ohne Weiteres ableiten. Auf dem Weg zu einem besseren Verständnis der Struktur ist es von Interesse, Datensätze mit ähnlichen Eigenschaften generieren zu können, um zu sehen, wie eine Modellierungsmethode mit den Daten interagiert (z. B. um die Parameterstabilität zu untersuchen). Ältere Leitfäden zu niedrigdimensionalen synthetischen Daten können jedoch ein Ausgangspunkt sein, der für höherdimensionale Datensätze erweitert oder angepasst werden kann.
Das statistische Paket R verfügt über eine Simulationsfunktion, die Daten basierend auf einem Modell simuliert, das an vorhandene Daten angepasst ist. Dabei wird das angepasste Modell als "bekannte" Populationsbeziehung verwendet, und anschließend werden basierend auf diesem Modell neue Daten simuliert. Es gibt eine Methode für diese Funktion im Paket lme4. Diese angepassten Objekte können zufällige und feste Effekte und Korrelationen (einschließlich Autokorrelation für Zeitreihen) berücksichtigen.
Dies kann funktionieren, was Sie wollen.
quelle