Als «smoothing» getaggte Fragen

77

Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse

Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45,...

r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

73

Was ist ein "Kernel" im Klartext?

Es gibt verschiedene Verwendungszwecke: Schätzung der Kerndichte Kernel-Trick Kernel-Glättung Bitte erläutern Sie, was der "Kernel" in ihnen im Klartext in Ihren eigenen Worten

kernel-trick kernel-smoothing

47

So verwenden Sie die Pearson-Korrelation korrekt mit Zeitreihen

Ich habe 2 Zeitreihen (beide glatt), die ich überkreuzen möchte, um zu sehen, wie korreliert sie sind. Ich beabsichtige, den Pearson-Korrelationskoeffizienten zu verwenden. Ist das angebracht Meine zweite Frage ist, dass ich die 2 Zeitreihen so probieren kann, wie es mir gefällt. dh ich kann...

time-series correlation pearson-r smoothing

36

Gute Methoden für Dichtediagramme nicht negativer Variablen in R?

plot(density(rexp(100)) Offensichtlich steht die gesamte Dichte links von Null für eine Verzerrung. Ich möchte einige Daten für Nicht-Statistiker zusammenfassen und Fragen dazu vermeiden, warum nicht-negative Daten eine Dichte links von Null aufweisen. Die Diagramme dienen der

r pdf gamma-distribution kernel-smoothing

29

Auswahl einer Bandbreite für Kernel-Dichteschätzer

Für univariate Kerneldichteschätzer (KDE) verwende ich die Silverman-Regel zur Berechnung von :hhh 0.9min(sd,IQR/1.34)×n−0.20.9min(sd,IQR/1.34)×n−0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} Was sind die Standardregeln für multivariates KDE (unter der Annahme eines...

smoothing kernel-smoothing

27

Warum sollte man sich in Naive Bayes mit Laplace-Glättung beschäftigen, wenn das Testset unbekannte Wörter enthält?

Ich habe heute über die Naive Bayes-Klassifikation gelesen. Ich las unter der Überschrift Parameterschätzung mit add 1 Glättung : Verweisen Sie mit ccc auf eine Klasse (z. B. Positiv oder Negativ) und mit www auf ein Token oder Wort. Der Maximum - Likelihood - Schätzer für P(w|c)P(w|c)P(w|c) ist...

machine-learning classification text-mining naive-bayes laplace-smoothing

25

"Kernel Density Estimation" ist eine Faltung von was?

Ich versuche, die Schätzung der Kerneldichte besser zu verstehen. Verwendung der Definition aus Wikipedia: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition fh^(x)=1n∑ni=1Kh(x−xi)=1nh∑ni=1K(x−xih)fh^(x)=1n∑i=1nKh(x−xi)=1nh∑i=1nK(x−xih) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h...

r kernel-smoothing convolution

24

Können Sie die Dichteschätzung des Parzen-Fensters (Kernel) in Laienbegriffen erklären?

Die Schätzung der Parzen-Fensterdichte wird als beschrieben p(x)=1n∑i=1n1h2ϕ(xi−xh)p(x)=1n∑i=1n1h2ϕ(xi−xh) p(x)=\frac{1}{n}\sum_{i=1}^{n} \frac{1}{h^2} \phi \left(\frac{x_i - x}{h} \right) wobei nnn die Anzahl der Elemente im Vektor ist, ein Vektor ist, eine Wahrscheinlichkeitsdichte von , die...

pdf kernel-smoothing intuition density-estimation

21

Wie projiziert man einen neuen Vektor auf den PCA-Raum?

Nach der Durchführung der Hauptkomponentenanalyse (PCA) möchte ich einen neuen Vektor auf den PCA-Raum projizieren (dh seine Koordinaten im PCA-Koordinatensystem finden). Ich habe PCA in R-Sprache mit berechnet prcomp. Jetzt sollte ich meinen Vektor mit der PCA-Rotationsmatrix multiplizieren...

r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

20

Was sind die korrekten Werte für Präzision und Rückruf in Randfällen?

Präzision ist definiert als: p = true positives / (true positives + false positives) Ist es richtig, dass sich die Genauigkeit 1 nähert true positivesund false positivessich 0 nähert? Gleiche Frage zum Rückruf: r = true positives / (true positives + false negatives) Ich führe derzeit einen...

precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

18

Glätten - wann und wann nicht?

Auf William Briggs 'Blog gibt es einen ziemlich alten Beitrag , der sich mit den Fallstricken befasst, Daten zu glätten und diese geglätteten Daten zur Analyse zu bringen. Das Hauptargument ist nämlich: Wenn Sie in einem Moment des Wahnsinns Zeitreihendaten glätten und diese als Eingabe für andere...

time-series smoothing

17

Wenn variable Kernelbreiten oft gut für die Kernelregression sind, warum sind sie im Allgemeinen nicht gut für die Schätzung der Kerneldichte?

Diese Frage wird an anderer Stelle diskutiert . Variable Kernel werden häufig in der lokalen Regression verwendet. Zum Beispiel ist Löss weit verbreitet und eignet sich gut als Regressionsglätter. Es basiert auf einem Kernel mit variabler Breite, der sich an die Datensparsität...

nonparametric smoothing kernel-smoothing loess

17

Wenn der Epanechnikov-Kernel bei der Kernel-Dichteschätzung theoretisch optimal ist, warum wird er nicht häufiger verwendet?

Ich habe (zum Beispiel hier ) gelesen, dass der Epanechnikov-Kernel zumindest im theoretischen Sinne optimal ist, wenn man eine Kerneldichteschätzung durchführt. Wenn dies zutrifft, warum wird der Gaußsche Kern dann so häufig als Standardkern oder in vielen Fällen als einziger Kern in Bibliotheken...

nonparametric kernel-smoothing

16

ETS () -Funktion, wie vermeide ich Prognosen, die nicht mit historischen Daten übereinstimmen?

Ich arbeite an einem Alogorithmus in R, um eine monatliche Prognoseberechnung zu automatisieren. Ich benutze unter anderem die Funktion ets () aus dem Vorhersagepaket, um die Vorhersage zu berechnen. Es funktioniert sehr gut. Leider ist das Ergebnis, das ich für einige bestimmte Zeitreihen...

r time-series forecasting exponential-smoothing

15

Was ist die Intuition hinter austauschbaren Proben unter der Nullhypothese?

Permutationstests (auch Randomisierungstest, Re-Randomisierungstest oder exakter Test genannt) sind sehr nützlich und nützlich, wenn die zum Beispiel erforderliche Annahme einer Normalverteilung t-testnicht erfüllt ist und wenn die Transformation der Werte durch Rangfolge der Werte erfolgt Ein...

hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

15

Fläche unter dem "pdf" in der Kerndichteschätzung in R

Ich versuche, die ' Dichte' -Funktion in R zu verwenden, um Kernel-Dichteschätzungen durchzuführen. Ich habe einige Schwierigkeiten, die Ergebnisse zu interpretieren und verschiedene Datensätze zu vergleichen, da die Fläche unter der Kurve nicht unbedingt 1 zu sein scheint. Für jede...

r estimation pdf kernel-smoothing auc

15

Wie wird beim Kneser-Ney-Glätten mit unsichtbaren Wörtern umgegangen?

Nach allem, was ich gesehen habe, ist die Kneser-Ney-Glättungsformel (zweiter Ordnung) auf die eine oder andere Weise gegeben als P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &=...

machine-learning natural-language naive-bayes smoothing language-models

14

So stimmen Sie die Glättung im mgcv GAM-Modell

Ich versuche herauszufinden, wie die Glättungsparameter in einem mgcv: gam-Modell gesteuert werden. Ich habe eine Binomialvariable, die ich hauptsächlich als Funktion der x- und y-Koordinaten auf einem festen Gitter modellieren möchte, sowie einige andere Variablen mit geringfügigeren Einflüssen....

r smoothing mgcv

14

Zeitreihendaten werden geglättet

Ich erstelle eine Android-Anwendung, die Beschleunigungsmesserdaten während des Schlafes aufzeichnet, um Schlaf-Trends zu analysieren und den Benutzer während des leichten Schlafes optional in der Nähe einer gewünschten Zeit aufzuwecken. Ich habe bereits die Komponente erstellt, die Daten sammelt...

time-series smoothing signal-processing java

14

Wie berechnet man die Überlappung zwischen den empirischen Wahrscheinlichkeitsdichten?

Ich suche nach einer Methode zur Berechnung der Überlappungsfläche zwischen zwei Kerndichteschätzungen in R als Maß für die Ähnlichkeit zwischen zwei Stichproben. Um dies zu verdeutlichen, müsste ich im folgenden Beispiel die Fläche des violett überlappenden Bereichs quantifizieren:...

r probability pdf kernel-smoothing