Als «data-cleaning» getaggte Fragen

Die Datenbereinigung ist ein vorbereitender Schritt zur statistischen Analyse, bei dem der Datensatz bearbeitet wird, um Fehler zu korrigieren und in eine Form zu bringen, die für die Verarbeitung durch statistische Software geeignet ist.

34
Organisierte Prozesse zur Datenbereinigung

Durch meine eingeschränkte Beschäftigung mit Data Science mit R wurde mir klar, dass die Bereinigung fehlerhafter Daten ein sehr wichtiger Teil der Vorbereitung von Daten für die Analyse ist. Gibt es Best Practices oder Verfahren zum Bereinigen von Daten vor deren Verarbeitung? Wenn ja, gibt es...

29
Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?

Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :(...

14
Wie kann man Postanschriften Fuzzy Matching machen?

Ich würde gerne wissen, wie man Postanschriften vergleicht, wenn sich deren Format unterscheidet oder wenn eine von ihnen falsch geschrieben ist. Bisher habe ich verschiedene Lösungen gefunden, aber ich denke, dass sie ziemlich alt und nicht sehr effizient sind. Ich bin mir sicher, dass es einige...

11
Gibt es gute Out-of-the-Box-Sprachmodelle für Python?

Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a...

10
Wann sollte man eine lineare Regression oder eine Entscheidungsbaum- oder eine zufällige Waldregression wählen? [geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 4 Jahren . Ich arbeite an einem...

10
Wie mache ich ein Batch-Innenprodukt in Tensorflow?

Ich habe zwei Tensoren a:[batch_size, dim] b:[batch_size, dim]. Ich möchte inneres Produkt für jedes Paar in der Charge machen c:[batch_size, 1], wo erzeugen c[i,0]=a[i,:].T*b[i,:].

10
Beste Sprachen für wissenschaftliches Rechnen [geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Es scheint, als ob in...

10
Beziehung zwischen Faltung in Mathematik und CNN

Ich habe die Erklärung der Faltung gelesen und verstehe sie bis zu einem gewissen Grad. Kann mir jemand helfen zu verstehen, wie diese Operation mit der Faltung in Faltungs-Neuronalen Netzen zusammenhängt? Ist eine filterähnliche Funktion, gdie Gewicht

8
Beheben von Dateninkonsistenzen

Ich versuche, einige meiner Daten zu analysieren, aber meine Daten weisen viele Inkonsistenzen auf. Ich habe eine SQL-Tabelle, die ich analysieren möchte. Die Tabelle ist eine Tabelle von Universitäten mit folgender Struktur: name:string, city:string, state:string, country:string Name ist immer...