Wenn ich die Werte der beobachteten Knoten eines MRF festlege, wird es dann zu einem
Wenn ich die Werte der beobachteten Knoten eines MRF festlege, wird es dann zu einem
Dieser Beitrag bezieht sich auf ein sich schnell änderndes Ereignis. Ich bin auf eine Frage aus dem Jahr 2012 gestoßen, die eine sehr gute Diskussion über Julia als Alternative zu R / Python für verschiedene Arten von statistischer Arbeit hatte. Hier liegt die ursprüngliche...
Wenn ich in einem maschinellen Lernalgorithmus richtig verstanden habe, muss das Modell aus seiner Erfahrung lernen, dh wenn das Modell die falsche Vorhersage für die neuen Fälle liefert, muss es sich an die neuen Beobachtungen anpassen und mit der Zeit wird das Modell immer besser . Ich sehe...
Ich habe ein sehr einfaches Problem, aber ich kann kein passendes Werkzeug finden, um es zu lösen. Ich habe eine Folge von Vektoren gleicher Länge. Jetzt möchte ich LSTM RNN auf dem Zugmuster dieser Sequenzen trainieren und es dann machen, um eine neue Sequenz von Vektoren der Länge basierend auf...
Ich benutze die Cholesky-Zerlegung, um korrelierte Zufallsvariablen bei gegebener Korrelationsmatrix zu simulieren. Die Sache ist, das Ergebnis reproduziert niemals die Korrelationsstruktur, wie sie gegeben ist. Hier ist ein kleines Beispiel in Python, um die Situation zu veranschaulichen. import...
Ich habe theano zum Experimentieren mit LSTMs verwendet und mich gefragt, welche Optimierungsmethoden (SGD, Adagrad, Adadelta, RMSprop, Adam usw.) für LSTMs am besten funktionieren. Gibt es Forschungsarbeiten zu diesem Thema? Hängt die Antwort auch von der Art der Anwendung ab, für die ich das...
Der Lernratenparameter ( ) in Gradient Boosting verringert den Beitrag jedes neuen Basismodells - normalerweise eines flachen Baums -, das in der Reihe hinzugefügt wird. Es hat sich gezeigt, dass die Genauigkeit des Testsatzes drastisch erhöht wird, was verständlich ist, da mit kleineren Schritten...
CrossValidated hat verschiedene Fragen, wann und wie die Selten-Ereignis-Bias-Korrektur von King und Zeng (2001) angewendet werden soll. . Ich suche etwas anderes: eine minimale simulationsbasierte Demonstration, dass der Bias existiert. Insbesondere König und Zeng Zustand "... in Daten zu...
In diesem Artikel verknüpft der Autor die lineare Diskriminanzanalyse (LDA) mit der Hauptkomponentenanalyse (PCA). Mit meinen begrenzten Kenntnissen kann ich nicht nachvollziehen, wie LDA PCA ähneln kann. Ich habe immer gedacht, dass LDA eine Art Klassifizierungsalgorithmus ist, ähnlich der...
Ich bin neu im maschinellen Lernen und suche nach Datensätzen, mit denen ich die Unterschiede zwischen verschiedenen Algorithmen für maschinelles Lernen (Decision Trees, Boosting, SVM und Neuronale Netze) vergleichen und gegenüberstellen kann. Wo finde ich solche Datensätze? Wonach sollte ich...
Frequentistische Statistiken sind für mich gleichbedeutend mit dem Versuch, Entscheidungen zu treffen, die für alle möglichen Stichproben gut sind. Dh eine frequentistische Entscheidungsregel sollte immer versuchen, das frequentistische Risiko zu minimieren, das von einer Verlustfunktion und dem...
Ich frage mich, warum Überspringen-Gramm für seltene Wörter besser ist als CBOW in word2vec. Ich habe die Behauptung unter https://code.google.com/p/word2vec/ gelesen
Ich versuche ein intuitives Verständnis dafür zu bekommen, wie die Hauptkomponentenanalyse (PCA) im Subjekt- (Doppel-) Raum funktioniert . Betrachten 2D - Datensatz mit zwei Variablen, x1x1x_1 und x2x2x_2 , und nnn Datenpunkte (Datenmatrix XX\mathbf X ist n×2n×2n\times 2 und wird angenommen,...
Ich verstehe die Faltungs- und Bündelungsschichten, kann aber den Grund für eine vollständig verbundene Schicht in CNNs nicht sehen. Warum ist die vorherige Ebene nicht direkt mit der Ausgabeebene
Gibt es ein Wort, das die Umkehrung der Varianz bedeutet? Das heißt, wenn eine hohe Varianz hat, dann hat X eine niedrige ... ? Kein Interesse an einem Beinahe-Antonym (wie 'Übereinstimmung' oder 'Ähnlichkeit'), sondern spezifisch 1 / σ 2
Kann jemand die Vor- und Nachteile von Hierarchical Clustering erklären? Hat hierarchisches Clustering die gleichen Nachteile wie K? Was sind die Vorteile von Hierarchical Clustering gegenüber K? Wann sollten wir K-Mittel anstelle von Hierarchical Clustering verwenden und umgekehrt? Antworten...
Ich erstelle ein VAR-Modell, um den Preis eines Vermögenswerts zu prognostizieren, und möchte wissen, ob meine Methode statistisch fundiert ist, ob die von mir eingeschlossenen Tests relevant sind und ob weitere erforderlich sind, um eine zuverlässige Prognose auf Grundlage meiner Eingabevariablen...
Kann Regularisierung hilfreich sein, wenn wir nur die Modellparameter schätzen (und interpretieren) möchten, nicht aber Prognosen oder Vorhersagen? Ich sehe, wie nützlich Regularisierung / Kreuzvalidierung ist, wenn Sie gute Prognosen für neue Daten erstellen möchten. Aber was ist, wenn Sie...
In einer Normalverteilung haben wir also zwei Parameter: mean und varance . Im Buch Mustererkennung und maschinelles Lernen taucht plötzlich ein Hyperparameter in den Regularisierungsbegriffen der Fehlerfunktion auf.μμ\muσ2σ2\sigma^2λλ\lambda Was sind Hyperparameter? Warum heißen sie so? Und wie...
Beim Versuch, Clusteranalysen zu erklären, wird der Prozess häufig falsch verstanden, da er damit zusammenhängt, ob die Variablen korreliert sind. Ein Weg, um die Leute an dieser Verwirrung vorbei zu bringen, ist eine Handlung wie diese: Dies zeigt deutlich den Unterschied zwischen der Frage, ob es...