İstatistikler ve Büyük Veri regression

3

Scikit-learn kullanarak polinom regresyon

Scikit-learn'ı polinom regresyonu için kullanmaya çalışıyorum. Okuduğum kadarıyla polinom regresyonu özel bir lineer regresyon vakasıdır. Belki de bir scikit'in genelleştirilmiş doğrusal modellerinden birinin daha yüksek dereceli polinomlara uyması için parametreleştirilebileceğini ümit ediyordum ama bunun için bir seçenek göremiyorum. Poli çekirdekli bir Support Vector Regressor kullanmayı başardım. Bu, verilerimin bir alt …

29 regression machine-learning large-data polynomial scikit-learn

4

McFadden'ın Sözde-R2 Yorumlanması

McFadden'in takma adı 0.192 olan ve R1 karesinin ödemeli denilen bağımlı değişkenli (1 = ödeme ve 0 = ödeme yok) olan ikili bir lojistik regresyon modeline sahibim. Bu sözde R-kare'nin yorumlanması nedir? Yuvalanmış modeller için göreceli bir karşılaştırma mı (örn. 6 değişkenli bir modelde, McFadden'ın 0.192 karesi olan R-karesi var, …

29 regression self-study logistic

4

Nasıl RMSLE (Kök Ortalama Kareli Logaritmik Hata) yorumlayabilirsiniz?

Bir ekipman kategorisinin satış fiyatını tahmin eden performansı değerlendirmek için RMSLE (Ortalama Ortalama Karesel Logaritmik Hatası) kullandıkları bir makine öğrenme yarışması yapıyorum. Sorun nihai sonucumun başarısını nasıl yorumlayacağımdan emin değilim. Örneğin, bir RMSLE'ye , üstel gücü yükseltip rmse gibi yorumlayabilir miyim? (yani, )1.0521.0521.052eeee1.052=2.863=RMSEe1.052=2.863=RMSEe^{1.052}=2.863=RMSE Tahminlerimin , gerçek fiyatlardan ortalama olarak olduğunu …

29 regression machine-learning interpretation measurement-error theory

4

Sonuçlar lm () den bir denkleme nasıl çevrilir?

lm()Bir değeri tahmin etmek için kullanabiliriz , ancak bazı durumlarda sonuç formülünün denklemine hala ihtiyacımız var. Örneğin, denklemi parsellere ekleyin.

29 r regression lm

3

R: Veri setinde NaN bulunmamasına rağmen “yabancı işlev çağrısı” na NaN / Inf atma Rastgele Orman [kapalı]

Bir veri kümesi üzerinde çapraz doğrulanmış rasgele bir orman çalıştırmak için şapka kullanıyorum. Y değişkeni bir faktördür. Veri setimde hiç NaN, Inf veya NA yok. Ancak rastgele orman çalıştırırken, alıyorum Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

4

Lojistik Regresyondan maliyet fonksiyonu nasıl türetilir?

Coursera'da Machine Learning Stanford kursunu yapıyorum. Lojistik Regresyon bölümünde, maliyet fonksiyonu şudur: Sonra burada türetilir: Maliyet fonksiyonunun türevini almaya çalıştım ama tamamen farklı bir şey aldım. Türev nasıl elde edilir? Aracı adımlar nelerdir?

29 regression logistic gradient-descent derivative

1

Varsayımlar karşılanmadığında bir regresyon modeli ne kadar yanlış?

Bir regresyon modelini yerleştirirken, çıktıların varsayımlarına uyulmazsa, özellikle: Artıklar homoscedastik değilse ne olur? Kalanlar Kalanlar - Takılan arsa'da artan veya azalan bir model gösteriyorsa. Artıklar normal dağılmazsa ve Shapiro-Wilk testinde başarısız olursa ne olur? Shapiro-Wilk normallik testi çok katı bir testtir ve bazen Normal-QQ grafiği biraz makul görünse bile, veriler …

28 regression multiple-regression error assumptions normality-assumption

1

Kapalı formdaki kement çözümünün türetilmesi neden yanlış?

Kement sorunu kapalı formda bir çözüme sahip: \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ metin {LS}} _ j) (| \ beta_j ^ {\ text {LS }} | - \ alpha) ^ + , X ortonormal sütunlara sahipse. Bu, bu başlıkta gösterilmiştir: Kapalı formdaki …

28 regression lasso regularization

5

Doğrusal regresyon için eşcinsellik saptamasının varsayımını ihlal etmenin tehlikeleri nelerdir?

Bir örnek olarak, ChickWeightR'de ayarlanan verileri göz önünde bulundurun . Varyans açıkça zamanla artar, bu nedenle aşağıdaki gibi basit bir doğrusal regresyon kullanırsam: m <- lm(weight ~ Time*Diet, data=ChickWeight) Sorularım: Modelin hangi yönleri sorgulanabilir olacak? Sorunlar Timearalığın dışında değer bulma ile sınırlı mı? Doğrusal regresyonun bu varsayımın ihlal edilmesine karşı …

28 r regression heteroscedasticity assumptions

1

Bir lmer modelden etkilerin tekrarlanabilirliğinin hesaplanması

Bu yazıda , karışık etki modellemesi ile bir ölçümün tekrarlanabilirliğini (diğer bir deyişle güvenilirlik, sınıf içi korelasyon) nasıl hesaplayacağımı anladım . R kodu şöyle olurdu: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

4

GLM'ler için sahte R kare formülü

Doğrusal Modeli R İle Genişletme kitabında , Julian J. Faraway (s. 59) 'de sahte için bir formül buldum .R,2R2R^2 1 - Rezidüel DeğişimNullDeviance1−ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}} . Bu , GLM'ler için sahte için ortak bir formül mü?R,2R2R^2

28 r regression generalized-linear-model r-squared

5

Farklı “en iyi” modeller arasından en iyi modeli seçmek

Farklı yöntemlerle seçilen farklı modeller arasından bir model nasıl seçersiniz (örneğin geriye ya da ileriye doğru seçim)? Ayrıca bir parsimonious model nedir?

28 regression model-selection

6

Neden çok değişkenli regresyona ihtiyacımız var (bir grup tek değişkenli regresyonun aksine)?

Bu harika kitabı okudum: Johnson ve Wichern tarafından uygulanan çok değişkenli istatistiksel analiz . Buradaki ironi, ayrı tek değişkenli (regresyon) modeller yerine çok değişkenli (regresyon) modelleri kullanma motivasyonunu hala anlayamıyorum. Ben stats.statexchange mesajların geçti 1 ve 2 açıklamak katına ve çok değişkenli regresyon ve çok değişkenli regresyon sonuçlarının (b) yorumlama …

28 regression multiple-regression inference multivariate-regression

3

Neden bağımsız değişkenleri merkezlemek temel etkileri ılımlılıkla değiştirebildi?

Bu CV dizisinden esinlenerek çoklu regresyon ve etkileşimle ilgili bir sorum var: Merkezlenmiş değişkenler kullanarak etkileşim terimi hiyerarşik regresyon analizi? Hangi değişkenleri merkezlemeliyiz? Denetleme efekti denetlerken, bağımsız değişkenlerimi merkezlerim ve etkileşim terimimi hesaplamak için merkezlenmiş değişkenleri çarparım. Sonra regresyon analizimi yapıyorum ve ılımlılığı gösterebilecek ana ve etkileşim etkilerini kontrol ediyorum. …

28 regression interaction centering

2

RSS neden kare kare np dağıtıyor?

OLS modeli altında, RSS (artık kareler toplamı) değerinin χ 2 ⋅ ( n - p )χ2⋅(n−p)\chi^2\cdot (n-p) ( p ) neden dağıldığını anlamak istiyorum.pp modelinde parametrelerinin sayısı, varlık nnn gözlem sayısı). Bu kadar temel bir soruyu sorduğum için özür dilerim, ancak cevabı çevrimiçi olarak bulamıyorum (ya da benim uygulama alanım …

28 regression distributions least-squares

«regression» etiketlenmiş sorular