İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

8
Zaman serisi analizinde tuzaklar
Ben sadece zaman serisi analizinde kendi kendine öğrenmeye başlıyorum. Genel istatistiklere uygulanmayan çok sayıda potansiyel tuzaklar olduğunu fark ettim. Öyleyse, temel istatistiksel günahlar nedir? , Sormak istiyorum: Zaman serileri analizinde yaygın tuzaklar veya istatistiksel günahlar nelerdir? Bu, bir topluluk vikisi, cevap başına bir kavram olarak tasarlanmıştır ve lütfen, Genel istatistik …

2
Stein’in paradoksunun neden sadece boyutlarda geçerli olduğuna dair sezgi
Stein Örnek gösterir maksimum olabilirlik tahmini olduğu nnn araçlarla normal dağılım değişkenler μ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n ve sapma 111 IFF (kare işlev kaybı altında) kabul edilemez n≥3n≥3n\ge 3 . Düzgün bir kanıt için, Büyük Ölçekli Çıkarım'ın ilk bölümüne bakın : Bradley Effron'un Tahmin, Test Etme ve Tahmini için Ampirik Bayes Yöntemleri . x∼N(μ,1)x∼N(μ,1)x …

6
İki normal dağılımın üst üste gelen bölgelerinin yüzdesi
Merak ediyorum, ve ile iki normal dağılım verildi.σ 2 , μ 2σ1, μ1σ1, μ1\sigma_1,\ \mu_1σ2, μ2σ2, μ2\sigma_2, \ \mu_2 İki dağılımın üst üste gelen bölgelerinin yüzdesini nasıl hesaplayabilirim? Bu sorunun belirli bir adı olduğunu varsayalım, bu sorunu tanımlayan herhangi bir adın farkında mısınız? Bunun herhangi bir uygulamasından haberdar mısınız (örneğin, …

5
R'nin lojistik regresyonundan sözde nasıl hesaplanır ?
Christopher Manning'in R'deki lojistik regresyon konusundaki yazımı, R'de lojistik bir regresyon olduğunu gösteriyor: ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) Bazı çıktılar: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median 3Q Max -3.24384 -1.34325 0.04954 …

5
Regresyonları anlama - modelin rolü
Parametrelerini almaya çalıştığınız işlevi bilmiyorsanız, regresyon modeli nasıl kullanılabilir? Çocuklarını emziren annelerin daha sonraki yaşamlarda diyabet geçirme ihtimalinin daha düşük olduğunu söyleyen bir araştırma parçası gördüm. Araştırma yaklaşık 1000 anneden yapılan bir ankete aitti ve çeşitli faktörler için kontrol edildi ve bir loglinear model kullanıldı. Şimdi bu, diyabet olasılığını belirleyen …

4
Kontrast matrisi nedir?
Kontrast matrisi tam olarak nedir (kategorik yordayıcılarla yapılan bir analize ilişkin bir terim) ve kontrast matrisi tam olarak nasıl belirtilir? Yani, sütun nedir, satır nedir, bu matristeki kısıtlamalar nelerdir ve sütun jve satırdaki sayı ne anlama igelir? Dokümanlara ve web’e bakmaya çalıştım ama görünen o ki, herkes onu kullanıyor ama …

4
Neden bazen olumsuz (log) olasılığını kullandığımızı merak ediyorum?
Bu soru beni uzun zamandır şaşırttı. Olasılığın en üst düzeye çıkarılmasında 'log' kullanımını anlamıyorum, bu yüzden 'log' hakkında sormuyorum. Sorum şu: log olasılığını en üst düzeye çıkarmak, "negatif log olasılığını" (NLL) en aza indirmeye eşdeğer olduğu için neden bu NLL'yi icat ettik? Neden sürekli "pozitif olasılık" kullanmıyoruz? NLL hangi durumlarda …

1
İki değişkenli Gauss arasında KL ayrışması
İki değişkenli normal dağılım varsayarsak KL diverjans formülünü türetmekte sorun yaşıyorum. Tek değişkenli vakayı oldukça kolay bir şekilde yaptım. Ancak, matematik istatistiklerini aldığımdan bu yana epey zaman geçti, bu yüzden çok değişkenli olaya genişletmekte zorlanıyorum. Eminim basit bir şeyi özlüyorumdur. İşte sahip olduğum şey ... Her iki varsayalım ve aracı …



3
Kütle dönüştürülmüş yordayıcının ve / veya tepkinin yorumlanması
Merak ediyorum, yorumlamada sadece bağımlı, bağımsız veya bağımsız değişkenlerin mi yoksa sadece bağımsız değişkenlerin log dönüşümünde mi olduğunu fark eder mi? Durumunu düşünün log(DV) = Intercept + B1*IV + Error IV'ü yüzde artış olarak değerlendirebilirim, ancak sahip olduğumda bu nasıl değişir? log(DV) = Intercept + B1*log(IV) + Error veya sahipken …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

1
“Neredeyse tüm yerel minimumların küresel optimuma çok benzer bir fonksiyon değerine sahip olduğunu” anlamak
Bir de son blog yazısı Rong Ge tarafından, o söyleniyordu: Derin ağları öğrenmek de dahil olmak üzere birçok problem için, yerel minimumun hemen hemen tümünün global optimum ile çok benzer bir fonksiyon değerine sahip olduğuna ve bu nedenle yerel bir minimum bulmanın yeterince iyi olduğuna inanılmaktadır. Bu inanç nereden geliyor?

3
Y'nin normal olarak dağıtılması gerektiği yanılgısı nereden geliyor?
Görünüşte saygın kaynaklar, bağımlı değişkenin normal olarak dağıtılması gerektiğini iddia ediyor: Model varsayımları: YYY normal dağılmış, hatalar normal dağılmış, ei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2) ve bağımsız ve XXX sabittir ve sabit varyans σ2σ2\sigma^2 . Penn State, STAT 504 Kesikli Verilerin Analizi İkincisi, doğrusal regresyon analizi tüm değişkenlerin çok değişkenli normal olmasını gerektirir. …

1
GradientDescentOptimizer ve AdamOptimizer (TensorFlow) arasındaki fark nedir?
Basit yazdım MLP içinde TensorFlow bir modelleme olduğu XOR-Gate . İçin böylece: input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] aşağıdakileri üretmelidir: output_data = [[0.], [1.], [1.], [0.]] Ağın bir giriş katmanı, gizli bir katmanı ve her birinin 2, 5 ve 1 nöronlu bir çıkış katmanı vardır. Şu …

6
Makine (Derin) Öğrenmede temel teoremler nelerdir?
Al Rahimi, NIPS 2017'de şu anki Makine Öğrenmesini Simya ile karşılaştırarak çok kışkırtıcı bir konuşma yaptı . İddialarından biri, temel sonuçları ispatlayan basit teoremlere sahip olmak için teorik gelişmelere geri dönmemiz gerektiğidir. Bunu söylediğinde, ML için ana teoremleri aramaya başladım, ancak ana sonuçları anlatan iyi bir referans bulamadım. Öyleyse benim …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.