Bin ich auf der Suche nach einer besser verhaltenen Verteilung für die betreffende unabhängige Variable oder nach einer Reduzierung der Auswirkung von Ausreißern oder nach etwas
Regressionsmodellierungsstrategien
Bin ich auf der Suche nach einer besser verhaltenen Verteilung für die betreffende unabhängige Variable oder nach einer Reduzierung der Auswirkung von Ausreißern oder nach etwas
Ich frage mich, welchen Wert es hat, eine kontinuierliche Prädiktorvariable zu nehmen und sie zu zerlegen (z. B. in Quintile), bevor sie in einem Modell verwendet wird. Es scheint mir, dass wir durch Binning der Variablen Informationen verlieren. Ist dies nur so, dass wir nichtlineare Effekte...
Da RF mit Nichtlinearität umgehen kann, aber keine Koeffizienten bereitstellt, ist es ratsam, Zufallsgesamtstrukturen zu verwenden, um die wichtigsten Merkmale zu erfassen und diese Merkmale dann in ein Modell mit mehreren linearen Regressionen zu integrieren, um ihre Koeffizienten zu erhalten....
Ist es möglich, ein logistisches Regressionsmodell überzurüsten? Ich habe in einem Video gesehen, dass meine Fläche unter der ROC-Kurve höher als 95% ist, dann ist es sehr wahrscheinlich, dass sie überpasst wird. Kann ein logistisches Regressionsmodell jedoch überpasst
Ich denke über die Diskussion um diese Frage und insbesondere über Frank Harrells Kommentar nach, dass die Varianzschätzung in einem reduzierten Modell (dh einer, aus der eine Reihe von erklärenden Variablen getestet und verworfen wurden) Yes allgemeine Freiheitsgrade verwenden sollte . Professor...
Wie wir alle wissen, gibt es zwei Methoden, um das logistische Regressionsmodell zu bewerten, und sie testen sehr unterschiedliche Dinge Vorhersagekraft: Erhalten Sie eine Statistik, die misst, wie gut Sie die abhängige Variable basierend auf den unabhängigen Variablen vorhersagen können. Die...
Angenommen, ich habe mehrere Modelle auf dem Trainingsset trainiert und das beste mit dem Kreuzvalidierungsset und der gemessenen Leistung auf dem Testset ausgewählt. Jetzt habe ich ein letztes bestes Modell. Sollte ich alle verfügbaren Daten oder Schiffslösungen, die nur auf dem Schulungsset...
Abgesehen von einigen besonderen Umständen, in denen wir die bedingte mittlere Beziehung unbedingt verstehen müssen, in welchen Situationen sollte ein Forscher OLS anstelle von Quantile Regression wählen? Ich möchte nicht, dass die Antwort "wenn es keinen Sinn macht, die Schwanzbeziehungen zu...
Ich habe viel Zeit in die Entwicklung von Methoden und Software für die Validierung von Vorhersagemodellen im Bereich der traditionellen Statistik investiert. Wenn ich mehr Bayes'sche Ideen in die Praxis umsetze und unterrichte, sehe ich einige wesentliche Unterschiede, die ich berücksichtigen...
Stufenweise algorithmische Variablenauswahlmethoden neigen dazu, Modelle auszuwählen, die mehr oder weniger jede Schätzung in Regressionsmodellen beeinflussen ( s und ihre SEs, p- Werte, F- Statistiken usw.), und schließen mit etwa der gleichen Wahrscheinlichkeit echte Prädiktoren aus wie schließen...
Frank Harrell hat einen Blog gestartet ( Statistical Thinking) . In seinem ersten Beitrag listet er einige Schlüsselmerkmale seiner statistischen Philosophie auf. Es umfasst unter anderem: Machen Sie die Stichprobengröße nach Möglichkeit zu einer Zufallsvariablen Was bedeutet es, "die...
Dies ist mein erster Beitrag in StackExchange, aber ich verwende ihn seit einiger Zeit als Ressource. Ich werde mein Bestes tun, um das entsprechende Format zu verwenden und die entsprechenden Änderungen vorzunehmen. Auch dies ist eine mehrteilige Frage. Ich war mir nicht sicher, ob ich die Frage...
Nachdem ich hier die linearen Modellkoeffizienten geklärt habe, habe ich eine weitere Frage bezüglich der Nicht-Signifikanz (hoher p-Wert) für Koeffizienten von Faktorstufen. Beispiel: Wenn mein lineares Modell einen Faktor mit 10 Stufen enthält und nur 3 dieser Stufen mit signifikanten p-Werten...
Verwendung dieser Daten: head(USArrests) nrow(USArrests) Ich kann eine PCA wie folgt durchführen: plot(USArrests) otherPCA <- princomp(USArrests) Ich kann die neuen Komponenten bekommen otherPCA$scores und der Anteil der Varianz erklärt durch Komponenten mit summary(otherPCA) Aber was...
Bei der Diskriminanzanalyse ist die abhängige Variable kategorisch. Kann ich jedoch eine kategoriale Variable (z. B. Wohnstatus: ländlich, städtisch) zusammen mit einer anderen kontinuierlichen Variablen als unabhängige Variable bei der linearen Diskriminanzanalyse
Ich bin verwirrt mit der Annahme der Linearität des Logits für kontinuierliche Prädiktorvariablen in der logistischen Regressionsanalyse. Müssen wir die lineare Beziehung überprüfen, während wir mithilfe einer univariablen logistischen Regressionsanalyse nach potenziellen Prädiktoren suchen? In...
Propensity Score Matching wird verwendet, um kausale Schlussfolgerungen in Beobachtungsstudien zu ziehen (siehe das Rosenbaum / Rubin-Papier ). Was ist die einfache Intuition dahinter, warum es funktioniert? Mit anderen Worten, warum verschwinden die verwirrenden Effekte, wenn wir sicherstellen,...
Angenommen, wir haben Kovariaten x 1 , … , x n und eine binäre Ergebnisvariable ynnnx1,…,xnx1,…,xnx_1, \dots, x_nyyy . Einige dieser Kovariaten sind kategorisch mit mehreren Ebenen. Andere sind kontinuierlich. Wie würden Sie das "beste" Modell auswählen? Mit anderen Worten, wie wählen Sie die...
Eine der Voraussetzungen für eine logistische Regression ist die Linearität des Logits. Sobald ich mein Modell zum Laufen gebracht habe, teste ich es mit dem Box-Tidwell-Test auf Nichtlinearität. Einer meiner kontinuierlichen Prädiktoren (X) wurde positiv auf Nichtlinearität getestet. Was soll ich...
Ich unterrichte mich derzeit selbst in der Klassifizierung und beschäftige mich speziell mit drei Methoden: Unterstützung von Vektormaschinen, neuronalen Netzwerken und logistischer Regression. Ich versuche zu verstehen, warum die logistische Regression jemals besser abschneiden würde als die...