Bei der Gratregression ist die zu minimierende Zielfunktion: RSS+λ∑β2j.RSS+λ∑βj2.\text{RSS}+\lambda \sum\beta_j^2. Kann dies mit der Lagrange-Multiplikatormethode optimiert werden? Oder ist es gerade
Bei der Gratregression ist die zu minimierende Zielfunktion: RSS+λ∑β2j.RSS+λ∑βj2.\text{RSS}+\lambda \sum\beta_j^2. Kann dies mit der Lagrange-Multiplikatormethode optimiert werden? Oder ist es gerade
Gaußsche Mischungsmodelle (GMMs) sind ansprechend, weil sie sowohl analytisch als auch praktisch einfach zu handhaben sind und in der Lage sind, einige exotische Verteilungen ohne zu große Komplexität zu modellieren. Es gibt einige analytische Eigenschaften, die wir erwarten sollten und die im...
Summieren wir einen Strom von Zufallsvariablen, X i i i d ∼ U ( 0 , 1 )Xi∼iidU(0,1)X_i \overset{iid}\sim \mathcal{U}(0,1) ; Sei YYY die Anzahl der Terme, die wir benötigen, damit die Summe eins überschreitet, dh YYY ist die kleinste Zahl, so dass X 1 + X 2 + ⋯ + X Y > 1.X1+X2+⋯+XY>1.X_1 + X_2...
Diese Frage ergibt sich aus der Frage: Wann (wenn überhaupt) ist ein frequentistischer Ansatz wesentlich besser als ein bayesianischer? Wie ich in meiner Lösung zu dieser Frage geschrieben habe, müssen Sie meiner Meinung nach, wenn Sie ein Frequentist sind, nicht an das Wahrscheinlichkeitsprinzip...
Ich las über die Optimierung für ein schlecht gestelltes Problem in der Bildverarbeitung und fand die folgende Erklärung zur Optimierung in Wikipedia. Was ich nicht verstehe ist, warum nennen sie diese Optimierung in Computer Vision " Energieminimierung "? Ein Optimierungsproblem kann...
Ich habe einige Daten, die ich glätten möchte, damit die geglätteten Punkte monoton abnehmen. Meine Daten nehmen stark ab und beginnen dann ein Plateau. Hier ist ein Beispiel mit R df <- data.frame(x=1:10, y=c(100,41,22,10,6,7,2,1,3,1)) ggplot(df, aes(x=x, y=y))+geom_line() Was ist eine...
In einigen Tutorials wurde festgestellt, dass die "Xavier" -Gewichtsinitialisierung (Artikel: Verständnis der Schwierigkeit, tiefe Feedforward-Neuronale Netze zu trainieren ) ein effizienter Weg ist, um die Gewichte von Neuronalen Netzen zu initialisieren. Für vollständig verbundene Ebenen gab es...
Ich weiß, dass R gam- und mgcv-Bibliotheken für verallgemeinerte additive Modelle hat. Aber ich habe Schwierigkeiten, ihre Gegenstücke im Python-Ökosystem zu finden (Statistikmodelle haben nur einen Prototyp in der Sandbox). Kennt jemand vorhandene Python-Bibliotheken? Wer weiß, dass dies ein gutes...
Ich versuche, den Gradienten für ein Dataset mit einer Ereignisrate von etwa 1% mithilfe von Enterprise Miner zu erhöhen, aber es wird keine Ausgabe erzeugt. Meine Frage ist, ob es sich um einen auf Entscheidungsbäumen basierenden Ansatz handelt, ob es überhaupt richtig ist, die...
Ich habe mich gefragt, nach welchen Kriterien Kolmogorov-Smirnov, Cramer-von-Mises und Anderson-Darling beim Vergleich von 2 ECDFS verwendet werden sollen. Ich kenne die Mathematik der Unterschiede, aber wenn ich ECDF-Daten habe, wie würde ich wissen, welcher Test für die Verwendung geeignet...
Tensorflow enthält ein Beispiel-Tutorial zur Klassifizierung von CIFAR-10 . Im Tutorial wird der durchschnittliche Kreuzentropieverlust über die Charge minimiert. def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits:...
Diese Frage befasst sich mit der eingeschränkten Maximalwahrscheinlichkeitsschätzung (REML) in einer bestimmten Version des linearen Modells, nämlich: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), Wobei eine durch ;...
Wird beim Vergleichen von Features F-regressiondasselbe verwendet wie beim Korrelieren von Features mit der Beschriftung und beim Beobachten des Werts?R2R2R^2 Ich habe oft gesehen, dass meine Kollegen F regressionin ihrer Pipeline für maschinelles Lernen eine für die Featureauswahl verwenden...
Wurden groß angelegte Studien zu MCMC-Methoden durchgeführt, in denen die Leistung mehrerer verschiedener Algorithmen für eine Reihe von Testdichten verglichen wurde? Ich denke an etwas, das dem von Rios und Sahinidis (2013) entspricht und einen gründlichen Vergleich einer großen Anzahl...
Anmerkung: SSTSSTSST = Summe der Quadrate insgesamt, SSESSESSE = Summe der quadrierten Fehler und SSRSSRSSR = Regressionssumme der Quadrate. Die Gleichung im Titel wird oft geschrieben als: ∑i=1n(yi−y¯)2=∑i=1n(yi−y^i)2+∑i=1n(y^i−y¯)2∑i=1n(yi−y¯)2=∑i=1n(yi−y^i)2+∑i=1n(y^i−y¯)2\sum_{i=1}^n (y_i-\bar...
Ich habe einige Schwierigkeiten, die Interpretation des 2-Stichproben-KS-Tests zu verstehen und festzustellen, wie sich dieser von einem regulären t-Test zwischen 2 Gruppen unterscheidet. Nehmen wir an, ich habe Männer und Frauen, die eine Aufgabe erledigen, und ich sammle einige Punkte von dieser...
Ich habe das gesehen Betreiber überall in einiger Literatur ich auf Kausalitäts tue (siehe zum Beispiel des Wikipedia - Eintrag ). Ich kann jedoch keine formale und allgemeine Definition dieses Operators finden.do(x)do(x)do(x) Kann mir jemand einen guten Hinweis dazu geben? Ich interessiere mich...
In bestimmten Fällen wird der Jeffreys-Prior für ein vollständiges mehrdimensionales Modell im Allgemeinen als unzureichend angesehen. Dies ist beispielsweise der Fall in: (wobei , mit und unbekannt) in dem vor dem folgenden (in vollen Jeffreys vor bevorzugt wird ): wobei der Jeffreys-Prior ist,...
Kann jemand die Grundidee hinter den Hamilton-Monte-Carlo-Methoden erläutern und in welchen Fällen werden bessere Ergebnisse erzielt als mit den
Nach meinem (sehr grundlegenden) Verständnis schätzt Naive Bayes die Wahrscheinlichkeiten basierend auf den Klassenhäufigkeiten der einzelnen Merkmale in den Trainingsdaten. Aber wie berechnet es die Häufigkeit kontinuierlicher Variablen? Und wie klassifiziert es bei der Vorhersage eine neue...