Tool zum Generieren großer Datensätze von Testdaten [geschlossen]

25

Wenn Sie versuchen, ein effizientes Datenbankdesign zu entwickeln, sollten Sie am besten zwei Beispieldatenbanken erstellen, diese mit Daten füllen und einige Abfragen ausführen, um festzustellen, welche Datenbank eine bessere Leistung erbringt.

Gibt es ein Tool, das relativ schnell große (~ 10.000 Datensätze) Testdatensätze generiert (im Idealfall direkt in die Datenbank)? Ich suche etwas, das zumindest mit MySQL funktioniert.

BenV
quelle

Antworten:

12

Das beste Tool (wenn Sie es finden können) ist DataFactory. (Leider vergriffen) Ich habe absolut entzückende (und ziemlich authentisch aussehende) Datensätze daraus generiert.

Generatedata.com ist akzeptabel, aber nicht sehr gut skalierbar.

DataGenerator ist etwas, das Sie im Auge behalten sollten.

Und obwohl der DTM-Datengenerator klobig und ein schlechter Ersatz für DataFactory ist, existiert er und wird verkauft, und ich habe ihn verwendet, um leicht akzeptable Daten zu generieren.

Brian Ballsun-Stanton
quelle
4

Normalerweise erstelle ich meine eigenen Daten, wobei ich einige bekannte Daten als Eingabe verwende. Wenn diese zu zufällig sind, ist dies nicht immer ein guter Test. Ich benötige Daten, die ähnlich wie mein Endprodukt verteilt werden.

Alle größeren Datenbanken, die ich optimieren muss, sind wissenschaftlicher Natur. Daher kann ich in der Regel eine andere Untersuchung als Eingabe verwenden und sie neu skalieren und Jitter hinzufügen. (z. B. Aufnehmen von Daten mit einer 5-minütigen Trittfrequenz mit Millisekunden-Genauigkeit und Umwandeln in eine 10-sekündige Trittfrequenz mit einer Millisekunden-Genauigkeit, jedoch mit einem zeitlichen Jitter von +/- 100 ms)

...

Wenn Sie jedoch nicht selbst schreiben möchten, sollten Sie sich einige der Benchmarking-Tools ansehen. Sie können sie zum Einfügen von Lots verwenden, da sie anhand eines Trainingssatzes immer wieder verwendet werden können von Datensätzen (und ignorieren Sie dann einfach die Berichte darüber, wie schnell es funktioniert hat) ... und dann können Sie dasselbe Tool verwenden, um zu testen, wie schnell die Datenbank nach dem Auffüllen ist.

Joe
quelle
3

Ich habe mysqlslap benutzt. Es räumt auch nach sich selbst auf.

Hier ist der Artikel, den ich gelesen habe, als ich damit angefangen habe.

SteveHarville
quelle
2

Schauen Sie sich benerator an

Es ist nicht einfach anzufangen, aber es ist ziemlich mächtig.

ein Pferd ohne Name
quelle
1

Der kostengünstigste Weg ist wahrscheinlich die Verwendung eines Open Source- oder kommerziellen Datengenerators. Ich hab das früher auch immer gemacht.

Jetzt, in meinen goldenen Jahren, betrachte ich jedes Bedürfnis nach Testdaten als ein Mandat, um eine andere Skriptsprache zu lernen.

Mike Sherrill 'Cat Recall'
quelle
1

Für alle, die nach einer anderen Lösung für dieses Problem suchen ... Ich habe ein Testdatengeneratorprojekt für Data Synchronization Studio geschrieben. Es kann einen großen Datensatz generieren, der von 1 bis 100 Millionen Zeilen realistischer Testdaten reicht. Hier ist ein Blog-Post darüber. http://www.simego.com/Blog/2012/02/Test-Data-Generator-Download-for-Data-Sync 15 Tage lang kostenlos verwenden (sobald Sie Ihre Testdaten haben, haben Sie sie)

Tremayne Christus
quelle