İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

5
Doğrusal regresyon için eşcinsellik saptamasının varsayımını ihlal etmenin tehlikeleri nelerdir?
Bir örnek olarak, ChickWeightR'de ayarlanan verileri göz önünde bulundurun . Varyans açıkça zamanla artar, bu nedenle aşağıdaki gibi basit bir doğrusal regresyon kullanırsam: m <- lm(weight ~ Time*Diet, data=ChickWeight) Sorularım: Modelin hangi yönleri sorgulanabilir olacak? Sorunlar Timearalığın dışında değer bulma ile sınırlı mı? Doğrusal regresyonun bu varsayımın ihlal edilmesine karşı …

3
MCMC algoritmalarındaki hata örnekleri
Markov zinciri Monte Carlo yöntemlerinin otomatik kontrolü için bir yöntem araştırıyorum ve bu tür algoritmaları oluştururken veya uygularken ortaya çıkabilecek bazı hata örnekleri istiyorum. Yayımlanan bir makalede yanlış yöntem kullanılmışsa, bonus puan. Özellikle hatanın, zincirin hatalı değişmeyen dağılıma sahip olduğu anlamına geldiği, ancak diğer hata türlerinin (örneğin zincir ergodik değil) …
28 mcmc 

3
Güçlendirmede, öğrenciler neden “zayıf”?
Ayrıca istatistiklere benzer bir soru bakın . Gelen artırılması gibi algoritmalar AdaBoost ve LPBoost o "zayıf" öğrencilerin Wikipedia'dan, yararlı olduğu daha iyi şans daha gerçekleştirmek zorunda sadece kombine edilecek bilinmektedir: Kullandığı sınıflandırıcılar zayıf olabilir (yani, önemli bir hata oranı gösterir), ancak performansları rastgele olmadığı sürece (ikili sınıflandırma için 0,5 hata …

3
“Bağımsız gözlemler” ne anlama geliyor?
Bağımsız gözlem varsayımının ne anlama geldiğini anlamaya çalışıyorum . Bazı tanımlar: "İki olay yalnızca ise bağımsızdır P(a∩b)=P(a)∗P(b)P(bir∩b)=P(bir)*P(b)P(a \cap b) = P(a) * P(b)." ( İstatistiksel Terimler Sözlüğü ) "bir olayın meydana gelmesi bir başkasının olasılığını değiştirmez" ( Wikipedia ). “bir gözlemin örneklenmesi, ikinci gözlemin seçimini etkilemez” ( David M. Lane …

3
Veri analizinde en iyi uygulama hakkında bilgi edinmek için kim github'u takip edecek?
Uzmanların veri analizi kodunu incelemek yardımcı olacaktır. Son zamanlarda github perusing ve orada veri analizi kodunu paylaşan birkaç kişi var. Bu, birkaç R Paketini (elbette doğrudan CRAN'dan temin edilebilir) içerir, ancak özellikle R kullanarak birkaç tekrarlanabilir araştırma örneği de içerir ( github'daki bu R listesine bakınız ). Veri analizinde en …

1
Bir lmer modelden etkilerin tekrarlanabilirliğinin hesaplanması
Bu yazıda , karışık etki modellemesi ile bir ölçümün tekrarlanabilirliğini (diğer bir deyişle güvenilirlik, sınıf içi korelasyon) nasıl hesaplayacağımı anladım . R kodu şöyle olurdu: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 


1
Google Prediction API'sinin arkasında ne var?
Google Prediction API , kullanıcının bazı gizemli sınıflandırıcıları eğitmek için bazı eğitim verileri gönderebileceği ve daha sonra örneğin spam filtreleri uygulamak veya kullanıcı tercihlerini tahmin etmek için gelen verileri sınıflandırmasını isteyebileceği bir bulut hizmetidir. Ama perde arkasında ne var?

4
GLM'ler için sahte R kare formülü
Doğrusal Modeli R İle Genişletme kitabında , Julian J. Faraway (s. 59) 'de sahte için bir formül buldum .R,2R2R^2 1 - Rezidüel DeğişimNullDeviance1−ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}} . Bu , GLM'ler için sahte için ortak bir formül mü?R,2R2R^2

6
Pasta grafiklerle ilgili sorunlar
Pasta grafikleri hakkında artan tartışmalar var gibi görünüyor. Buna karşı ana argümanlar şöyle görünüyor: Alan uzunluktan daha az güçle algılanır. Pasta grafiklerde veri noktası-piksel oranı çok düşük Ancak, oranlarını resmederken bir şekilde faydalı olabileceğini düşünüyorum. Çoğu durumda masa kullanmayı kabul ediyorum, ancak bir iş raporu yazarken ve neden yüzlerce tablo …


6
Bazı ilginç ve iyi yazılmış uygulamalı istatistik makaleleri nelerdir?
Okumak için eğlenceli ve bilgilendirici olacak istatistik uygulamalarını tanımlayan iyi makaleler nelerdir ? Sadece açık olmak gerekirse, gerçekten yeni istatistiksel yöntemleri (örneğin, en az açılı regresyonlu bir kağıt) tanımlayan kağıtları değil, gerçek dünyadaki sorunların nasıl çözüleceğini açıklayan kağıtları aramıyorum. Örneğin, aradığım şeye uyacak bir makale, ikinci Çapraz Onaylanmış Dergi Kulübü’nün …

5
İki değişkenli dağılım arasındaki “mesafenin” ölçülmesi
Kaynak aramayı kolaylaştırmak için ne yapmaya çalıştığımı tanımlamak için iyi bir terminoloji arıyorum. Yani, her biri iki ve X ile ilişkili iki A ve B noktası kümesine sahip olduğumu ve A ile B arasındaki "mesafeyi" ölçmek istediğimi - yani aynı dağılımdan örneklenmelerinin ne kadar muhtemel olduğunu varsayalım. (Dağılımların normal olduğunu …

3
R ile zaman serileri hakkında bilgi sahibi olmak
Tekrar düşünürseniz, zaman serileri analizine ilk başladığınız zamana kadar. Bilmek istediğiniz hangi araçlar, R paketleri ve internet kaynakları? Sormaya çalıştığım şey, nereden başlamalı? Spesifik olarak, R için R ile zaman serileri analizinde "yeni" olan birini gerçekten kaynatan herhangi bir kaynak var mı?
28 r  time-series 

3
R'deki ayrık düzgün dağılımlar için varsayılan fonksiyonlar var mı?
R'deki çoğu standart dağılım bir komut ailesine sahiptir - pdf / pmf, cdf / cmf, kuantil, rasgele sapmalar (örneğin; dnorm, pnorm, qnorm, rnorm). Ayrık tekdüze dağılımlar için bu işlevleri yeniden üretmek için bazı standart komutları kullanmanın yeterince kolay olduğunu biliyorum, ama zaten R'de bilmediğim ayrık tekdüze dağılımları modellemek için tercih …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.