Statistiken und Big Data

8
k-means ++ Algorithmus und Ausreißer

Es ist bekannt, dass der k-means-Algorithmus bei Ausreißern leidet. k-means ++ ist eine effektive Methode zur Initalisierung von Clusterzentren. Ich habe die PPT von den Gründern der Methode, Sergei Vassilvitskii und David Arthur http://theory.stanford.edu/~sergei/slides/BATS-Means.pdf (Folie 28) ,...

8
Gibt es einen aussagekräftigen Ansatz für die Durchführung einer Netzwerk-Metaanalyse diagnostischer Testgenauigkeitsstudien?

Hintergrund: Ich arbeite an einer systematischen Überprüfung, die mehrere Bildgebungsmodalitäten für Erkrankungen der Herzkranzgefäße umfasst, aber das Evidenznetzwerk ist ziemlich groß, einschließlich verschiedener Modalitäten, die häufig in einem umfangreichen Netzwerk miteinander verglichen...

8
Verstehen, dass

Ich habe gerade diese Frage und die wundervolle akzeptierte Antwort in diesem Forum gesehen. Ich wurde dann veranlasst, intuitiv zu verstehen, warum die Division von die Kovarianz normalisiert:S.xS.ySxSyS_xS_y COV( X., Y.)S.xS.y∈ [ - 1 , 1 ]COV⁡(X,Y)SxSy∈[−1,1]\frac{\operatorname{COV}(X,Y)}{S_xS_y}...

8
Intuition zur t-SNE-Visualisierungstechnik

Ich erzeugte eine t-SNE-Visualisierung eines Datensatzes (ungefähr 10 standardisierte (Mittelwert = 0, sd = 1) numerische Merkmale) und kam zu einem folgenden zweidimensionalen Diagramm. Ich habe keine gute Vorstellung davon, warum die Punkte in bogenförmigen Gruppen ausgerichtet sind, siehe zum...

8
Poisson xgboost mit Exposition

Ich habe versucht, eine zählabhängige Variable mit ungleichmäßiger Belichtung zu modellieren. Klassische glms würden log (Belichtung) als Offset verwenden, auch gbm, aber xgboost erlaubt bis jetzt keinen Offset ... Der Versuch, einen Nachteil in diesem Beispiel in crossvalidated ( Wohin geht der...