«modeling» etiketlenmiş sorular

Bu etiket, bir istatistiksel veya makine öğrenimi modeli oluşturma işlemini açıklar. Her zaman daha belirgin bir etiket ekleyin.

2
Model oluşturma süreci etkileşimli olduğunda geri test veya çapraz doğrulama
Performansını geri test etmek istediğim bazı öngörülü modellerim var (yani, veri setimi al, önceki bir noktaya "geri sar" ve modelin prospektif olarak nasıl performans göstereceğini görüyorum). Sorun şu ki, bazı modellerim etkileşimli bir süreçle oluşturuldu. Örneğin, Frank Harrell'in Regresyon Modelleme Stratejilerindeki tavsiyeyi takiben, bir modelde, özellikler ve yanıt arasındaki olası …

5
Büyük Verilerde Lojistik Regresyon
5000 civarında veri setim var. Bu veriler için ilk önce özellik seçimi için Chi Square testini kullandım; Bundan sonra, cevap değişkeni ile anlamlılık ilişkisi gösteren yaklaşık 1500 değişkenim oldu. Şimdi bunun üzerine lojistik gerilemeye uymalıyım. R için glmulti paket kullanıyorum (glmulti paket vlm için verimli alt küme seçimi sağlar) ancak …

4
Futbol skorları için modelleme
Dixon, Coles ( 1997 ) 'de, futboldaki skorları modellemek için (4.3)' te değiştirilmiş iki bağımsız Poisson modeli için maksimum olabilirlik tahminini kullanmışlardır. Alfa ve beta yanı sıra ev etkisi parametreleri (s. 274, Tablo 4) herhangi bir paket kullanmadan (her zamanki gibi bağımsız Poisson modelleri kullanarak çok iyi) "çoğaltmak" için R …


2
Bağımlı veriler için Bernoulli rastgele değişkenlerinin toplamı nasıl modellenir?
Bunun gibi hemen hemen aynı sorularım var: Bernoulli rastgele değişkenlerinin toplamını nasıl verimli bir şekilde modelleyebilirim? Ancak ayar oldukça farklıdır: S=Σi = 1 , NXbenS=Σben=1,N-XbenS=\sum_{i=1,N}{X_i} , , ~ 20, ~ 0.1P(Xben= 1 ) =pbenP(Xben=1)=pbenP(X_{i}=1)=p_iN-N-Npbenpbenp_i Bernoulli rastgele değişkenlerinin sonuçları için verilerimiz var: ,Xi , j,Xben,jX_{i,j}Sj=Σi = 1 , NXi , j,Sj=Σben=1,N-Xben,jS_j=\sum_{i=1,N}{X_{i,j}} …

1
Verilerimi yeniden karıştırmalı mıyım?
Elde edilmesi oldukça pahalı olan bir dizi biyolojik örneğimiz var. Bu örnekleri, öngörülü bir model oluşturmak için kullanılan verileri oluşturmak için bir dizi testten geçirdik. Bu amaçla örnekleri eğitim (% 70) ve test (% 30) setlerine ayırdık. Başarıyla bir model oluşturduk ve performansın "optimalden daha az" olduğunu keşfetmek için test …

2
Veriler için ROC eğrisini hesapla
Bu yüzden, Hamming Distance kullanarak biyometrik özellikteki bir kişinin kimliğini doğrulamaya çalıştığım 16 denemem var. Eşik değer 3,5'e ayarlandı. Verilerim aşağıda ve yalnızca deneme 1 Gerçek Olumludur: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

10
Yapısal eşitlik / MPLUS modellerini nasıl çiziyorsunuz?
Yapısal eşitlik / karışım modellerini verimli ve güzel bir şekilde çizmek için bir yazılım aracı (tercihen açık kaynaklı) arıyorum. Xfig ve graphviz'e baktıktan sonra artık genel vektör grafik paketi inkscape'e bağlı kalıyorum çünkü en esnek görünüyor. Stat.stackexchange topluluğunu yoklamak istiyorum: Yapısal eşitlik / karışım modellerinizi nasıl çiziyorsunuz? Hangi yazılımı kullanıyorsunuz?

2
İki dağılımı birleştiren bir modelde uyum iyiliğinin ölçülmesi
Modellemeye çalıştığım çift zirveye sahip verilerim var ve tepeler arasında bağımsız olarak tedavi edemediğim kadar örtüşme var. Verilerin histogramı şöyle görünebilir: Bunun için iki model oluşturdum: biri iki Poisson dağılımı kullanıyor, diğeri iki negatif binom dağılımı kullanıyor (aşırı dağılım için). Hangi modelin verilere daha doğru uyduğunu söylemenin uygun yolu nedir? …

3
Doğrusal regresyon için öngörücülerin en iyi alt kümesini hesaplama
uygun öngörücülerle çok değişkenli doğrusal regresyonda öngörücülerin seçimi için, tüm alt kümelerini açıkça test etmeden öngörücülerin 'optimal' alt kümesini bulmak için hangi yöntemler mevcuttur ? 'Uygulamalı Hayatta Kalma Analizi'nde Hosmer & Lemeshow, Kuk'un yöntemine atıfta bulunuyor, ancak orijinal kağıdı bulamıyorum. Herkes bu yöntemi veya daha da iyisi, daha modern bir …

4
Model uydurma / eğitim ve validasyon için kullanılan örnek verilerin oranının hesaplanması
Verileri tahmin etmek için kullanmayı planladığım bir örnek boyut "N" sağladı. Verileri alt bölümlere ayırmanın bazı yolları nelerdir? Bunun siyah-beyaz bir cevabı olmadığını biliyorum, ama bazı "başparmak kuralları" veya genellikle kullanılan oranları bilmek ilginç olurdu. Üniversitemizden biliyorum, profesörlerimizden biri eskiden% 60 model söyler ve% 40 geçer.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.