Statistiken und Big Data

15

Laufzeitanalyse gängiger Algorithmen für maschinelles Lernen

Hat jemand einen Verweis auf eine Zusammenfassung von Laufzeitanalysen für gängige Algorithmen für maschinelles Lernen (verschiedene Varianten von NN, SVM

machine-learning references algorithms

15

Wenn ich jede Probenbeobachtung in einem linearen Regressionsmodell wiederhole und die Regression erneut durchführe, wie würde sich dies auf das Ergebnis auswirken?

Angenommen, ich habe N Beobachtungen, möglicherweise mehrere Faktoren, und ich wiederhole jede Beobachtung zweimal (oder M

regression linear-model multiple-regression

15

Ob ein AR (P) -Prozess stationär ist oder nicht?

Wie kann in der Praxis beurteilt werden, ob ein AR (P) -Prozess stationär ist oder nicht? Wie ermittle ich die Reihenfolge für das AR- und

time-series stochastic-processes arma stationarity

15

Dichte der Normalverteilung mit zunehmenden Abmessungen

Die Frage, die ich stellen möchte, lautet: Wie ändert sich der Anteil der Stichproben innerhalb von 1 SD des Mittelwerts einer Normalverteilung, wenn die Anzahl der Variablen zunimmt? (Fast) jeder weiß, dass in einer eindimensionalen Normalverteilung 68% der Proben innerhalb einer...

normal-distribution multivariate-analysis

15

Wie sollten Entscheidungsbaumaufteilungen implementiert werden, wenn kontinuierliche Variablen vorhergesagt werden?

Eigentlich schreibe ich eine Implementierung von Random Forests, aber ich glaube, die Frage ist spezifisch für Entscheidungsbäume (unabhängig von RFs). Der Kontext ist also, dass ich einen Knoten in einem Entscheidungsbaum erstelle und sowohl die Vorhersage- als auch die Zielvariable...

algorithms cart random-forest

15

Entfernungskorrelation versus gegenseitige Information

Ich habe einige Zeit mit der gegenseitigen Information gearbeitet. Aber ich habe in der "Korrelationswelt" ein sehr neues Maß gefunden, das auch zur Messung der Verteilungsunabhängigkeit verwendet werden kann, die sogenannte "Distanzkorrelation" (auch Brownsche Korrelation genannt):...

correlation mutual-information distance-covariance

15

Welcher Algorithmus für maschinelles Lernen kann verwendet werden, um den Aktienmarkt vorherzusagen?

Alternativ zur Vorhersage von Devisenmärkten. Ich weiß, dass dies ziemlich kompliziert werden kann, daher suche ich zur Einführung einen einfachen Vorhersagealgorithmus mit einer gewissen Genauigkeit. (Es ist für ein M.Sc.-Universitätsprojekt, das vier Monate dauert) Ich habe gelesen, dass ein...

machine-learning finance

15

Aufteilen von Bäumen in R: party vs. rpart

Es ist schon eine Weile her, dass ich mir das Teilen von Bäumen angesehen habe. Als ich das letzte Mal so etwas gemacht habe, mag ich Party in R (erstellt von Hothorn). Die Idee der bedingten Folgerung durch Stichproben ist für mich sinnvoll. Aber rpart hatte auch Anklang. In der aktuellen...

r cart rpart partitioning

15

Was ist ein guter Ansatz, um R in einem Computerraum zu unterrichten?

Es gab mehrere gute Fragen und Antworten zu Einführungsbüchern oder Lernansätzen, z . B. hier und hier . Aber ich habe ein etwas anderes Problem - die beste Möglichkeit, eine einstündige Sitzung (oder mehrere solcher Sitzungen) in einem Computerraum durchzuführen, damit die Leute mit R beginnen und...

r teaching

15

Wie kann eine Kreuzvalidierung mit einem Cox-Modell für proportionale Gefahren durchgeführt werden?

Angenommen, ich habe ein Vorhersagemodell für das Auftreten einer bestimmten Krankheit in einem Datensatz (dem Datenbestand zur Modellbildung) erstellt und möchte nun überprüfen, wie gut das Modell in einem neuen Datensatz (dem Validierungsdatenbestand) funktioniert. Für ein mit logistischer...

predictive-models cross-validation survival roc

15

Wie wählt man ein Signifikanzniveau für einen großen Datensatz?

Ich arbeite mit einem Datensatz mit N rund 200.000. In Regressionen sehe ich sehr kleine Signifikanzwerte << 0.001, die mit sehr kleinen Effektgrößen verbunden sind, z. B. r = 0.028. Was ich gerne wissen würde, gibt es eine grundsätzliche Möglichkeit, eine angemessene Signifikanzschwelle in...

regression probability statistical-significance sample-size

15

LASSO / LARS vs. GETS-Methode (General to Specific)

Ich habe mich gefragt, warum LASSO- und LARS-Modellauswahlmethoden so beliebt sind, obwohl sie im Grunde genommen nur Variationen der schrittweisen Vorauswahl sind (und daher unter Pfadabhängigkeit leiden). Warum werden GETS-Methoden (General to Specific) für die Modellauswahl meist ignoriert,...

feature-selection model-selection lasso stepwise-regression lars

15

Unterschied bei der Verwendung von normalisiertem Farbverlauf und Farbverlauf

Im allgemeinen Einstellung des Gradientenabstiegsalgorithmus haben wir wobei x n ist der aktuelle Punkt, η ist die Schrittgröße und g r a d i e n t x n ist der bei x n bewertete Gradient . xn+1=xn−η∗gradientxnxn+1=xn−η∗gradientxnx_{n+1} = x_{n} - \eta *

algorithms optimization

15

Was ist ein praktisch guter Datenanalyseprozess?

Ich möchte den Analyseprozess kennenlernen oder Referenzen darüber haben, den die meisten statistischen Datenanalysten für jedes Datenanalyseprojekt durchlaufen. Wenn ich eine "Liste" erstelle, um das Datenanalyseprojekt abzuschließen, muss ein Analyst: Sammeln Sie zuerst die Anforderungen für das...

project-management

15

Widersprüchliche Ergebnisse der Quadratsumme Typ III in ANOVA in SAS und R

Ich analysiere Daten aus einem unausgeglichenen faktoriellen Experiment mit SASund R. Beide SASund Rliefern eine ähnliche Quadratsumme vom Typ I, aber ihre Quadratsumme vom Typ III unterscheidet sich voneinander. Im Folgenden sind SASund RCodes und Ausgänge. DATA ASD; INPUT Y T B; DATALINES; 20 1 1...

r anova sas sums-of-squares

15

Einstufung mit Tall Fat-Daten

Ich muss auf meinem Laptop einen linearen Klassifikator mit hunderttausenden Datenpunkten und etwa zehntausenden Funktionen trainieren. Welche Möglichkeiten habe ich? Was ist der Stand der Technik für diese Art von Problem? Der stochastische Gradientenabstieg scheint eine vielversprechende Richtung...

classification

15

Sind Experten schädlich?

Ich lese "Die Rolle des Schachs in der Forschung der künstlichen Intelligenz" ( pdf ) und es heißt interessanterweise: Die Erfahrung [...] zeigt, dass die Beiträge von Schachexperten zwar allgemein nützlich, aber nicht vollständig vertrauenswürdig sind. Ein gutes Beispiel dafür ist die...

games artificial-intelligence

15

Welche Sprache soll für die genetische Programmierung verwendet werden?

Im Rahmen einer Aufgabe muss ich einen genetischen Programmieralgorithmus schreiben , der die Luftschadstoffwerte vorhersagt. Da ich keine Erfahrung habe, kann mir jemand Hinweise auf Vorschläge von Programmiersprachen geben, in denen weiterentwickelte Programme geschrieben werden . Klarstellung:...

genetic-algorithms

15

Wie bewerte ich die Standardabweichung?

Ich habe Antworten von 85 Personen zu ihrer Fähigkeit, bestimmte Aufgaben zu erledigen, gesammelt. Die Antworten sind auf einer Fünf-Punkte-Likert-Skala: 5 = sehr gut, 4 = gut, 3 = durchschnittlich, 2 = schlecht, 1 = sehr schlecht, Der Mittelwert liegt bei 2,8 und die Standardabweichung bei...

standard-deviation

15

Gibt es eine Möglichkeit, die Funktion zur Parameteranpassung (Gitter) in CARET zu deaktivieren?

CARET verwendet automatisch ein vorab festgelegtes Abstimmungsraster, um verschiedene Modelle zu erstellen, bevor ein endgültiges Modell ausgewählt wird, und trainiert dann das endgültige Modell mit den vollständigen Trainingsdaten. Ich kann mein eigenes Stimmraster mit nur einer Kombination von...

r caret