Data Science - seite 23

12

Alternativen zu TF-IDF und Cosine Ähnlichkeit beim Vergleich von Dokumenten unterschiedlicher Formate

Ich habe an einem kleinen, persönlichen Projekt gearbeitet, das die beruflichen Fähigkeiten eines Benutzers aufgreift und basierend auf diesen Fähigkeiten die für ihn idealste Karriere vorschlägt. Ich benutze eine Datenbank mit Stellenangeboten, um dies zu erreichen. Im Moment funktioniert der Code...

12

Wie berechnet man die VC-Dimension?

Ich studiere maschinelles Lernen und möchte wissen, wie man die VC-Dimension berechnet. Zum Beispiel: h ( x ) = { 10wenn a≤x≤bsonst h(x)={1if a≤x≤b0else h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} ( a , b ) ∈ R 2 mit den Parametern .( a , b ) ∈ R.2(a,b)∈R2(a,b)...

machine-learning classification vc-theory

12

Wie viele LSTM-Zellen soll ich verwenden?

Gibt es Faustregeln (oder tatsächliche Regeln) für die minimale, maximale und "angemessene" Anzahl von LSTM-Zellen, die ich verwenden sollte? Insbesondere beziehe ich mich auf BasicLSTMCell von TensorFlow und num_unitsEigenschaft. Bitte nehmen Sie an, dass ich ein Klassifizierungsproblem habe, das...

rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

12

Deep Learning für Nicht-Image-Nicht-NLP-Aufgaben?

Bisher gibt es viele interessante Anwendungen für tiefes Lernen in der Bildverarbeitung oder der Verarbeitung natürlicher Sprache. Wie ist es in anderen traditionelleren Bereichen? Zum Beispiel habe ich traditionelle soziodemografische Variablen sowie möglicherweise viele Labormessungen und möchte...

deep-learning

12

Wie sollte der Bias initialisiert und reguliert werden?

Ich habe ein paar Artikel über die Kernel-Initialisierung gelesen und in vielen Artikeln wird erwähnt, dass sie die L2-Regularisierung des Kernels verwenden (oft mitλ=0.0001λ=0.0001\lambda = 0.0001 ). Tut irgendjemand etwas anderes, als die Verzerrung mit konstanter Null zu initialisieren und sie...

neural-network

12

Merkmalsbedeutung mit kategorialen Merkmalen mit hoher Kardinalität für die Regression (numerisch abhängige Variable)

Ich habe versucht, Feature-Wichtigkeiten aus zufälligen Wäldern zu verwenden, um eine empirische Feature-Auswahl für ein Regressionsproblem durchzuführen, bei dem alle Features kategorisch sind und viele von ihnen viele Ebenen haben (in der Größenordnung von 100-1000). Da bei der One-Hot-Codierung...

scikit-learn feature-selection random-forest xgboost categorical-data

12

Woher wissen Sie, dass das Modell überpasst hat?

Ich hoffe, die folgenden Auszüge geben einen Einblick in meine Frage. Diese stammen von http://neuralnetworksanddeeplearning.com/chap3.html Das Lernen verlangsamt sich dann allmählich. Schließlich hört die Klassifizierungsgenauigkeit gegen Epoche 280 so gut wie auf, sich zu verbessern. In späteren...

neural-network overfitting

12

Erkennen von Anomalien mit dem neuronalen Netzwerk

Ich habe einen großen mehrdimensionalen Datensatz, der jeden Tag generiert wird. Was wäre ein guter Ansatz, um im Vergleich zu früheren Tagen irgendeine Art von "Anomalie" zu entdecken? Ist dies ein geeignetes Problem, das mit neuronalen Netzen angegangen werden könnte? Anregungen sind willkommen....

tensorflow keras anomaly-detection

12

Ist Excel ausreichend für Data Science?

Ich bereite mich gerade auf einen Einführungskurs in die Datenwissenschaft mit der Programmiersprache R vor. Mein Publikum besteht aus Studenten mit Schwerpunkt Wirtschaft. Ein typischer Business-Student hat keine Computer-Programmiererfahrung, hat jedoch einige Kurse belegt, die Excel verwenden....

programming excel

12

Warum sollte die Initialisierung von Gewichten und Bias bei 0 gewählt werden?

Ich lese das: Um unser neuronales Netzwerk zu trainieren, werden wir jeden Parameter W (l) ijWij (l) und jeden b (l) ibi (l) auf einen kleinen Zufallswert nahe Null initialisieren (sagen wir gemäß einem Normalen (0, ϵ2) Normalen (0)) , ϵ2) Verteilung für einige kleine ϵϵ, sagen wir 0,01) von...

deep-learning stanford-nlp randomized-algorithms

12

Was ist Grafikeinbettung?

Ich bin kürzlich auf das Einbetten von Graphen wie DeepWalk und LINE gestoßen. Ich habe jedoch immer noch keine klare Vorstellung davon, was unter Grafikeinbettungen zu verstehen ist und wann sie zu verwenden sind (Anwendungen). Anregungen sind

graphs

12

Warum müssen wir mit Datenungleichgewichten umgehen?

Ich muss wissen, warum wir mit Datenungleichgewichten umgehen müssen. Ich weiß, wie man damit umgeht und welche Methoden es gibt, um das Problem zu lösen: Upsampling, Downsampling oder die Verwendung von Smote. Wenn ich zum Beispiel eine seltene Krankheit habe, die 1 Prozent von 100 ausmacht, und...

classification dataset sampling class-imbalance

12

Vorhersageintervall um die LSTM-Zeitreihenprognose

Gibt es eine Methode zur Berechnung des Vorhersageintervalls (Wahrscheinlichkeitsverteilung) um eine Zeitreihenprognose aus einem LSTM-Netzwerk (oder einem anderen wiederkehrenden neuronalen Netzwerk)? Angenommen, ich prognostiziere 10 Stichproben für die Zukunft (t + 1 bis t + 10), basierend auf...

machine-learning deep-learning time-series prediction lstm

12

Eine Hot-Coding-Alternative für große kategoriale Werte?

Hallo, Datenrahmen mit großen kategorialen Werten über 1600 Kategorien gibt es eine Möglichkeit, Alternativen zu finden, damit ich nicht über 1600 Spalten habe. Ich fand diesen unten interessanten Link http://amunategui.github.io/feature-hashing/#sourcecode Aber sie konvertieren zu Klasse / Objekt,...

machine-learning dataset dimensionality-reduction encoding

12

Aktualisieren der Gewichte der Filter in einem CNN

Ich versuche gerade, die Architektur eines CNN zu verstehen. Ich verstehe die Faltung, die ReLU-Schicht, die Pooling-Schicht und die vollständig verbundene Schicht. Ich bin jedoch immer noch verwirrt über die Gewichte. In einem normalen neuronalen Netzwerk hat jedes Neuron sein eigenes Gewicht. In...

machine-learning neural-network deep-learning image-classification cnn

12

Gibt es eine Möglichkeit, die vom Early Stopping-Rückruf in Keras verwendete Metrik zu ändern?

Bei Verwendung des Rückrufs zum frühen Stoppen in Keras wird das Training beendet, wenn eine Metrik (normalerweise Validierungsverlust) nicht zunimmt. Gibt es eine Möglichkeit, eine andere Metrik (wie Präzision, Rückruf, f-Maß) anstelle des Validierungsverlusts zu verwenden? Alle Beispiele, die ich...

machine-learning neural-network deep-learning keras

12

Was bedeutet es, wenn wir sagen, dass die meisten Punkte in einem Hyperwürfel an der Grenze liegen?

Wenn ich einen 50-dimensionalen Hyperwürfel habe. Und ich definiere seine Grenze durch oder wobei die Dimension des Hyperwürfels ist. Die Berechnung des Punktanteils an der Grenze des Hyperwürfels dann . Was bedeutet es? Bedeutet das, dass der Rest des Raums leer ist? Wenn der Punkte an der Grenze...

machine-learning math

12

Was ist der Haken bei LSTM?

Ich erweitere mein Wissen über das Keras-Paket und habe mit einigen der verfügbaren Modelle gearbeitet. Ich habe ein NLP-Binärklassifizierungsproblem, das ich zu lösen versuche, und wende verschiedene Modelle an. Nachdem ich mit einigen Ergebnissen gearbeitet und mehr und mehr über LSTM gelesen...

neural-network nlp lstm recurrent-neural-net

12

Multi-Task-Learning in Keras

Ich versuche, gemeinsam genutzte Ebenen in Keras zu implementieren. Ich sehe, dass Keras hat keras.layers.concatenate, aber ich bin nicht sicher, Dokumentation über seine Verwendung. Kann ich damit mehrere gemeinsame Ebenen erstellen? Was wäre der beste Weg, um ein einfaches, gemeinsam genutztes...

machine-learning neural-network deep-learning keras multitask-learning

12

Multi-dimensionale und multivariate Zeitreihenprognose (RNN / LSTM) Keras

Ich habe versucht zu verstehen, wie man Daten darstellt und formt, um eine multidimentionale und multivariate Zeitreihenvorhersage mit Keras (oder TensorFlow) zu erstellen, aber ich bin immer noch sehr unklar, nachdem ich viele Blogposts / Tutorials / Dokumentationen gelesen habe, wie man die Daten...

python keras rnn lstm