Data Science - seite 13

17

Warum sowohl Validierungs- als auch Testset verwenden?

Betrachten Sie ein neuronales Netzwerk: Für einen bestimmten Datensatz teilen wir ihn in Schulungs-, Validierungs- und Testsätze ein. Angenommen, wir tun dies im klassischen Verhältnis 60:20:20. Dann verhindern wir eine Überanpassung, indem wir das Netzwerk validieren, indem wir es auf dem...

machine-learning neural-network cross-validation

17

Bester praktischer Algorithmus für Satzähnlichkeit

Ich habe zwei Sätze, S1 und S2, die beide (normalerweise) eine Wortanzahl unter 15 haben. Was sind die praktischsten und erfolgreichsten (maschinelles Lernen) Algorithmen, die möglicherweise einfach zu implementieren sind (neuronales Netzwerk ist in Ordnung, es sei denn, die Architektur ist so...

nlp clustering word2vec similarity

17

Bagging vs Dropout in tiefen neuronalen Netzen

Bagging ist die Erzeugung mehrerer Prädiktoren, die wie ein einzelner Prädiktor zusammenarbeiten. Dropout ist eine Technik, die neuronalen Netzen beibringt, alle möglichen Teilnetze zu mitteln. Wenn man sich die wichtigsten Kaggle-Wettbewerbe ansieht, scheint es, dass diese beiden Techniken sehr...

machine-learning neural-network deep-learning

17

Keras Unterschied zwischen val_loss und loss während des Trainings

Was ist der Unterschied zwischen val_lossund losswährend des Trainings in Keras? Z.B Epoch 1/20 1000/1000 [==============================] - 1s - loss: 0.1760, val_loss: 0.2032 Auf einigen Websites habe ich gelesen, dass Dropout bei der Validierung nicht funktioniert

machine-learning deep-learning keras

17

Was ist der Vorteil der Aufteilung der tfrecord-Datei in Shards?

Ich arbeite an der Spracherkennung mit Tensorflow und plane, LSTM NN mit einem Datensatz für massive Wellen zu trainieren. Aufgrund der Leistungssteigerungen plane ich, tfrecords zu verwenden. Im Internet gibt es mehrere Beispiele (z. B. Inception), in denen tfrecords-Dateien in Shards aufgeteilt...

python tensorflow

17

Zusätzliche Ausgabeebene in einem neuronalen Netzwerk (Dezimal zu Binär)

Ich arbeite gerade an einer Frage aus dem Online-Buch: http://neuralnetworksanddeeplearning.com/chap1.html Ich kann verstehen, dass, wenn die zusätzliche Ausgangsschicht aus 5 Ausgangsneuronen besteht, ich wahrscheinlich eine Vorspannung von 0,5 und ein Gewicht von jeweils 0,5 für die vorherige...

neural-network

17

NLP - warum ist "nicht" ein Stoppwort?

Ich versuche, Stoppwörter zu entfernen, bevor ich eine Themenmodellierung durchführe. Mir ist aufgefallen, dass einige Negationswörter (weder noch nie, keine usw.) normalerweise als Stoppwörter angesehen werden. Zum Beispiel enthalten NLTK, spacy und sklearn "not" in ihren Stoppwortlisten. Wenn wir...

nlp topic-model sentiment-analysis

17

Sollten wir die Normalisierung auch auf Testdaten anwenden?

Ich mache ein Projekt zum Problem der Autorenidentifikation. Ich hatte die tf-idf-Normalisierung angewendet, um Daten zu trainieren, und dann eine SVM für diese Daten trainiert. Wenn ich den Klassifikator verwende, sollte ich jetzt auch die Testdaten normalisieren. Ich bin der Meinung, dass das...

machine-learning neural-network deep-learning

17

K-means: Was sind einige gute Möglichkeiten, um einen effizienten Satz von Anfangsschwerpunkten zu wählen?

Wenn eine zufällige Initialisierung von Zentroiden verwendet wird, erzeugen unterschiedliche Läufe von K-Mitteln unterschiedliche Gesamt-SSEs. Und es ist entscheidend für die Leistung des Algorithmus. Was sind einige effektive Ansätze zur Lösung dieses Problems? Neuere Ansätze werden...

data-mining clustering k-means

16

Wo im Workflow sollten wir mit fehlenden Daten umgehen?

Ich erstelle einen Workflow zum Erstellen von Modellen für maschinelles Lernen (in meinem Fall mit Python pandasund sklearnPaketen) aus Daten, die aus einer sehr großen Datenbank (hier Vertica über SQL und pyodbc) abgerufen wurden , und ein wichtiger Schritt in diesem Prozess besteht darin,...

machine-learning python pandas scikit-learn

16

Diskriminierende Ein-Klassen-Klassifizierung mit unausgewogenem, heterogenem negativem Hintergrund?

Ich arbeite daran, einen vorhandenen überwachten Klassifikator zu verbessern, um {Protein} -Sequenzen als zu einer bestimmten Klasse gehörig zu klassifizieren (Neuropeptidhormon-Vorläufer) oder nicht. Es gibt ungefähr 1.150 bekannte "Positive" vor einem Hintergrund von ungefähr 13 Millionen...

machine-learning data-mining python classification

16

Python-Bibliothek für segmentierte Regression (auch stückweise Regression genannt)

Ich suche eine Python-Bibliothek, die segmentierte Regression (auch bekannt als stückweise Regression) durchführen kann . Beispiel :

python linear-regression library software-recommendation

16

Überanpassung des neuronalen Faltungsnetzwerks. Ausfallende hilft nicht

Ich spiele ein bisschen mit Convnets. Insbesondere verwende ich den Datensatz kaggle cats-vs-dogs, der aus 25000 Bildern besteht, die entweder als Katze oder als Hund (jeweils 12500) gekennzeichnet sind. Ich habe es geschafft, mit meinem Testset eine Klassifizierungsgenauigkeit von ca. 85% zu...

neural-network deep-learning convnet image-recognition dropout

16

Wie wählt man die Funktionen für ein neuronales Netzwerk?

Ich weiß, dass es keine eindeutige Antwort auf diese Frage gibt, aber nehmen wir an, dass ich ein riesiges neuronales Netzwerk mit vielen Daten habe und eine neue Funktion für die Eingabe hinzufügen möchte. Der "beste" Weg wäre, das Netzwerk mit der neuen Funktion zu testen und die Ergebnisse zu...

machine-learning neural-network feature-selection feature-extraction

16

Wie bekomme ich Vorhersagen mit predict_generator zum Streaming von Testdaten in Keras?

Im Keras-Blog zum Training von Convnets von Grund auf wird im Code nur das Netzwerk angezeigt , das mit Trainings- und Validierungsdaten ausgeführt wird. Was ist mit Testdaten? Entsprechen die Validierungsdaten den Testdaten (glaube ich nicht)? Wenn ein separater Testordner in ähnlichen Zeilen wie...

machine-learning python deep-learning keras confusion-matrix

16

Was ist Gewicht und Voreingenommenheit beim Tiefenlernen?

Ich fange an, maschinelles Lernen von der Tensorflow-Website zu lernen. Ich habe ein sehr sehr rudimentäres Verständnis des Ablaufs entwickelt, dem ein vertieftes Lernprogramm folgt (mit dieser Methode lerne ich schnell, anstatt Bücher und große Artikel zu lesen). Es gibt ein paar verwirrende...

machine-learning deep-learning tensorflow

16

Was ist ein LB-Score beim maschinellen Lernen?

Ich habe einen Artikel in Kaggle-Blogs gelesen. Wiederholt erwähnt der Autor "LB-Punktzahl" und "LB-Fit" als Maß für die Effektivität des maschinellen Lernens (zusammen mit der CV-Punktzahl). Bei einer Recherche nach der Bedeutung von 'LB' habe ich viel Zeit darauf verwendet, dass die Leute es im...

machine-learning accuracy

16

Wie kann die Anzahl der fehlenden Werte in jeder Zeile im Pandas-Datenrahmen gezählt werden?

Wie kann ich die Anzahl der fehlenden Werte in jeder Zeile im Pandas-Datenrahmen ermitteln? Ich möchte den Datenrahmen in verschiedene Datenrahmen aufteilen, die in jeder Zeile die gleiche Anzahl fehlender Werte aufweisen. Irgendein

python pandas

16

Extrahieren Sie die informativsten Textteile aus Dokumenten

Gibt es Artikel oder Diskussionen zum Extrahieren von Textteilen, die die meisten Informationen zum aktuellen Dokument enthalten? Zum Beispiel habe ich einen großen Bestand an Dokumenten aus derselben Domäne. Es gibt Textteile, die die wichtigsten Informationen enthalten, über die ein einzelnes...

nlp text-mining

16

Data Science Podcasts?

Was sind einige Podcasts, die sich auf die Datenwissenschaft beziehen? Dies ist eine ähnliche Frage wie die Referenzanforderungsfrage bei CrossValidated . Details / Regeln: Die Podcasts (das Thema und die Folgen) sollten sich auf die Datenwissenschaft beziehen. (Zum Beispiel: Ein Podcast über eine...

reference-request