İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

2
Kement'ten önce standardizasyon gerçekten gerekli midir?
LassoRegresyon gibi bir şeyden önce değişkenleri standartlaştırmanın üç ana nedenini okudum : 1) Katsayıların yorumlanabilirliği. 2) Katsayı önemini büzülme sonrası katsayı tahminlerinin göreceli büyüklüğü ile sıralama yeteneği. 3) Kesişmeye gerek yok. Ama en önemli noktayı merak ediyorum. Standardizasyonun modelin örnek genellemesinin dışına çıkacağını düşünmek için bir nedenimiz var mı? Ayrıca, …




1
Glmnet neden Zou & Hastie orijinal belgesinde "naif" elastik ağ kullanıyor?
Orijinal elastik ağ kağıdı Zou & Hastie (2005) Doğrusal regresyon için elastik ağ üzerinden yapılan elastik ağ üzerinden düzenlileştirme ve değişken seçimi (burada tüm değişkenlerin merkezlenmiş ve birim varyansa ölçeklendirildiğini varsayarım): ancak buna "saf elastik ağ" denir. İkili büzülme (kement ve çıkıntı) gerçekleştirdiğini, fazla büzülme eğiliminde olduğunu ve elde edilen …

1
Serbestlik dereceleri tam sayı olmayan bir sayı olabilir mi?
GAM kullandığımda, artık DF (kodun son satırı) olduğunu gösteriyor. Bu ne anlama geliyor? GAM örneğinin ötesine geçmek, Genel olarak, serbestlik derecelerinin sayısı tam sayı olmayan bir sayı olabilir mi?26,626,626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
Ne kadar akciğer kanseri gerçekten sigaradan kaynaklanıyor? [kapalı]
Tütün ürünlerinde çoğu zaman on akciğer kanserinden dokuzu sigaraya bağlı olduğu istatistiklerini görebiliyor, ancak bu sayı doğru mu? İki nedenden dolayı bu stat hakkında şüpheleniyorum. Öncelikle , ABD ve Norveç için zaman içinde sigara tüketim oranlarını karşılaştırır ve bunları erkek akciğer kanseri oranlarıyla karşılaştırırsanız, aşağıdaki tabloyu oluşturabilirsiniz. Burada ABD ve …


3
Şimdi derin öğrenme modellerinin yorumlanabileceği söylenemez mi? Düğüm özellikleri mi?
İstatistiksel ve makine öğrenimi modelleri için çok sayıda yorumlanabilirlik vardır: 1) bir bütün olarak algoritma, 2) genel olarak algoritmanın bir kısmı 3) belirli girdiler için algoritmanın bir kısmı ve bu üç seviye iki bölüme ayrılır, Biri eğitim için, biri de işlev değerlendirmesi için Son iki kısım birinciden çok daha yakın. …

3
Sınıflandırmada farklı kayıp fonksiyonlarını seçmenin etkileri yaklaşık 0-1 kayıptır.
Bazı objektif fonksiyonların optimize edilmesinin daha kolay, bazılarının ise zor olduğunu biliyoruz. Ve kullanmak istediğimiz ancak kullanması zor olan birçok kayıp fonksiyonu var, örneğin 0-1 kayıp. Yani işi yapmak için bazı proxy kaybı işlevlerini buluyoruz . Örneğin, 0-1 kaybını "yaklaşık" yapmak için menteşe kaybı veya lojistik kaybı kullanıyoruz. Ardından arsa …

2
Neden rastgele yürüyüşler birbiriyle ilişkili?
Ortalama olarak, Pearson korelasyon katsayısının mutlak değerinin , yürüme uzunluğundan bağımsız olarak herhangi bir bağımsız rastgele yürüyüş çiftine yakın bir sabit olduğunu gözlemledim .0.560.42 Birisi bu fenomeni açıklayabilir mi? Herhangi bir rastgele dizide olduğu gibi, yürüme uzunluğu arttıkça korelasyonların küçülmesini beklerdim. Deneylerim için, adım ortalama 0 ve adım standart sapma …

2
Kosinüs benzerliği l2 normalize öklid mesafesine eşit mi?
Özdeş bir vektör arasındaki bir sıralama benzerliği için benzer sonuçlar üretecek anlamı, u ve vektörler bir dizi V . Parametre olarak uzaklık ölçüsü (öklid mesafesi, kosinüs benzerliği) ve normalizasyon tekniğine (hiç, l1, l2) sahip bir vektör uzayı modelim var. Anladığım kadarıyla, [cosine, none] ayarlarının sonuçları aynı veya en azından gerçekten …

9
Korelasyon nedensellik olmadan ne zaman faydalı olabilir?
Birçok istatistikçinin söylediği bir evcil hayvan "Korelasyon nedensellik anlamına gelmez" dir. Bu kesinlikle doğrudur, ancak DOES'in burada ima ettiği bir şey korelasyonun çok az değeri olduğu veya hiç olmadığıdır. Bu doğru mu? İki değişkenin birbiriyle ilişkili olduğunu bilmek işe yaramaz mı? Bunun böyle olduğunu hayal edemiyorum. Prediktif analizlere çok aşina …

2
Varyasyon, varyans ile aynı mıdır?
Bu, burada Çapraz Doğrulanmış Haç hakkındaki ilk sorum, bu yüzden önemsiz görünse de lütfen bana yardım edin :-) Her şeyden önce, soru dil farklılıklarının bir sonucu olabilir veya belki de istatistiklerde gerçek eksikliklerim olabilir. Bununla birlikte, işte burada: Nüfus istatistiklerinde, varyasyon ve varyans aynı terimler midir? Değilse, ikisi arasındaki fark …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.