Statistiken und Big Data

8
Abstandsmetrik und Fluch der Dimensionen

In einigen Fällen habe ich einen Hinweis gelesen, dass Sie möglicherweise einen "Fluch der Dimensioalität" haben, wenn Sie viele Parameter und versuchen, eine "Ähnlichkeitsmetrik" zwischen diesen Vektoren zu finden. Ich glaube, es bedeutete, dass die meisten Ähnlichkeitswerte gleich sind und Ihnen...

8
Data Mining-Papiere / Beispiele

Ich suche nach mittelgroßen bis langen Artikeln / Websites / usw. zum Thema Data Mining, insbesondere dort, wo ein Datensatz von der Datenaufbereitung bis zum endgültigen Modell eingehend untersucht wird. Ich interessiere mich besonders für Diskussionen über die Anwendung von Algen des maschinellen...

8
Was nützen dichte Matrizen in der Statistik?

OK, ich bin kein Statistiker (nicht einmal in der Nähe). Ich bin ein High Performance Computing-Forscher und wollte ein paar Testfälle für große (größer als 5000 x 5000) dichte Matrizen. Ich hatte hier und an einigen anderen Orten gefragt , aber nie eine Antwort von einem Statistiker erhalten. Ich...

8
Faktoranalyse verstehen

Kann ich die Faktorenanalyse folgendermaßen verstehen? Angenommen, ich habe 5 unabhängige Variablen (A, B, C, D, E) Die Faktorenanalyse ermöglicht es mir, (D, E) zu abhängigen Variablen zu machen und sie zu linearen Kombinationen von (A, B, C) zu machen. Daher muss ich nur (A, B, C) Daten und die...

8
Verwirrt durch MATLABs Implementierung von Ridge

Ich habe zwei verschiedene Implementierungen von ridgein MATLAB. Eins ist einfach x =( A.'A + I λ )- 1EIN'bx=(A′A+Iλ)−1A′b\mathbf x = (\mathbf{A}'\mathbf{A}+\mathbf{I}\lambda)^{-1}\mathbf{A}'\mathbf b (wie auf der Grat-Regressionsseite von Wikipedia zu sehen ), wobei die Identitätsmatrix der...

8
Open-Source-Modelle für paarweises Lernen

Ich löse ein Klassifizierungsproblem mit einem paarweisen Lern-Trainingssatz. Wir haben 2 Klassen: schlecht und gut . Wir haben auch Paare von Objekten , was bedeutet, dass das Objekt besser ist als . Jedes Objekt wird durch seine reellen Koordinaten beschrieben: . Mein Ziel ist es, einen solchen...

8
Konfidenzintervalle für ein Polynom

Ich habe eine Zufallsvariable ZZZ die Werte in den nichtnegativen ganzen Zahlen annimmt. Nenne {0,1,2,…}{0,1,2,…}\{ 0,1,2,\dots \}die Wahrscheinlichkeiten für jedes Ergebnis zk:=P[Z=k]zk:=P[Z=k]z_k:=P[Z=k] . Ich kann unabhängig und billig aus ZZZ Distribution probieren . Ich habe derzeit eine...

8
Formerkennung für Zeitreihendaten

Ich habe eine große Sammlung von Zeitreihen - Messungen, die alle 15 Minuten (96 Messungen pro Tag) über einen Zeitraum von 1 Jahr an verschiedenen Orten durchgeführt werden. Ich habe jede Zeitreihe in 365 separate kleinere Zeitreihen unterteilt, eine für jeden Tag des Jahres. Wenn man sich diese...