İstatistikler ve Büyük Veri

5

Doğrusal regresyon için eşcinsellik saptamasının varsayımını ihlal etmenin tehlikeleri nelerdir?

Bir örnek olarak, ChickWeightR'de ayarlanan verileri göz önünde bulundurun . Varyans açıkça zamanla artar, bu nedenle aşağıdaki gibi basit bir doğrusal regresyon kullanırsam: m <- lm(weight ~ Time*Diet, data=ChickWeight) Sorularım: Modelin hangi yönleri sorgulanabilir olacak? Sorunlar Timearalığın dışında değer bulma ile sınırlı mı? Doğrusal regresyonun bu varsayımın ihlal edilmesine karşı …

28 r regression heteroscedasticity assumptions

3

MCMC algoritmalarındaki hata örnekleri

Markov zinciri Monte Carlo yöntemlerinin otomatik kontrolü için bir yöntem araştırıyorum ve bu tür algoritmaları oluştururken veya uygularken ortaya çıkabilecek bazı hata örnekleri istiyorum. Yayımlanan bir makalede yanlış yöntem kullanılmışsa, bonus puan. Özellikle hatanın, zincirin hatalı değişmeyen dağılıma sahip olduğu anlamına geldiği, ancak diğer hata türlerinin (örneğin zincir ergodik değil) …

28 mcmc

3

Güçlendirmede, öğrenciler neden “zayıf”?

Ayrıca istatistiklere benzer bir soru bakın . Gelen artırılması gibi algoritmalar AdaBoost ve LPBoost o "zayıf" öğrencilerin Wikipedia'dan, yararlı olduğu daha iyi şans daha gerçekleştirmek zorunda sadece kombine edilecek bilinmektedir: Kullandığı sınıflandırıcılar zayıf olabilir (yani, önemli bir hata oranı gösterir), ancak performansları rastgele olmadığı sürece (ikili sınıflandırma için 0,5 hata …

28 machine-learning theory boosting

3

“Bağımsız gözlemler” ne anlama geliyor?

Bağımsız gözlem varsayımının ne anlama geldiğini anlamaya çalışıyorum . Bazı tanımlar: "İki olay yalnızca ise bağımsızdır P(a∩b)=P(a)∗P(b)P(bir∩b)=P(bir)*P(b)P(a \cap b) = P(a) * P(b)." ( İstatistiksel Terimler Sözlüğü ) "bir olayın meydana gelmesi bir başkasının olasılığını değiştirmez" ( Wikipedia ). “bir gözlemin örneklenmesi, ikinci gözlemin seçimini etkilemez” ( David M. Lane …

28 probability sampling multilevel-analysis independence assumptions

3

Veri analizinde en iyi uygulama hakkında bilgi edinmek için kim github'u takip edecek?

Uzmanların veri analizi kodunu incelemek yardımcı olacaktır. Son zamanlarda github perusing ve orada veri analizi kodunu paylaşan birkaç kişi var. Bu, birkaç R Paketini (elbette doğrudan CRAN'dan temin edilebilir) içerir, ancak özellikle R kullanarak birkaç tekrarlanabilir araştırma örneği de içerir ( github'daki bu R listesine bakınız ). Veri analizinde en …

28 r reproducible-research

1

Bir lmer modelden etkilerin tekrarlanabilirliğinin hesaplanması

Bu yazıda , karışık etki modellemesi ile bir ölçümün tekrarlanabilirliğini (diğer bir deyişle güvenilirlik, sınıf içi korelasyon) nasıl hesaplayacağımı anladım . R kodu şöyle olurdu: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

7

Markov zinciri Monte Carlo (MCMC) öğrenmek için iyi kaynaklar

MCMC yöntemlerini öğrenmek için iyi bir kaynak için herhangi bir öneriniz var mı?

28 references mcmc

1

Google Prediction API'sinin arkasında ne var?

Google Prediction API , kullanıcının bazı gizemli sınıflandırıcıları eğitmek için bazı eğitim verileri gönderebileceği ve daha sonra örneğin spam filtreleri uygulamak veya kullanıcı tercihlerini tahmin etmek için gelen verileri sınıflandırmasını isteyebileceği bir bulut hizmetidir. Ama perde arkasında ne var?

28 machine-learning

4

GLM'ler için sahte R kare formülü

Doğrusal Modeli R İle Genişletme kitabında , Julian J. Faraway (s. 59) 'de sahte için bir formül buldum .R,2R2R^2 1 - Rezidüel DeğişimNullDeviance1−ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}} . Bu , GLM'ler için sahte için ortak bir formül mü?R,2R2R^2

28 r regression generalized-linear-model r-squared

6

Pasta grafiklerle ilgili sorunlar

Pasta grafikleri hakkında artan tartışmalar var gibi görünüyor. Buna karşı ana argümanlar şöyle görünüyor: Alan uzunluktan daha az güçle algılanır. Pasta grafiklerde veri noktası-piksel oranı çok düşük Ancak, oranlarını resmederken bir şekilde faydalı olabileceğini düşünüyorum. Çoğu durumda masa kullanmayı kabul ediyorum, ancak bir iş raporu yazarken ve neden yüzlerce tablo …

28 data-visualization many-categories pie-chart

5

Farklı “en iyi” modeller arasından en iyi modeli seçmek

Farklı yöntemlerle seçilen farklı modeller arasından bir model nasıl seçersiniz (örneğin geriye ya da ileriye doğru seçim)? Ayrıca bir parsimonious model nedir?

28 regression model-selection

6

Bazı ilginç ve iyi yazılmış uygulamalı istatistik makaleleri nelerdir?

Okumak için eğlenceli ve bilgilendirici olacak istatistik uygulamalarını tanımlayan iyi makaleler nelerdir ? Sadece açık olmak gerekirse, gerçekten yeni istatistiksel yöntemleri (örneğin, en az açılı regresyonlu bir kağıt) tanımlayan kağıtları değil, gerçek dünyadaki sorunların nasıl çözüleceğini açıklayan kağıtları aramıyorum. Örneğin, aradığım şeye uyacak bir makale, ikinci Çapraz Onaylanmış Dergi Kulübü’nün …

28 references application

5

İki değişkenli dağılım arasındaki “mesafenin” ölçülmesi

Kaynak aramayı kolaylaştırmak için ne yapmaya çalıştığımı tanımlamak için iyi bir terminoloji arıyorum. Yani, her biri iki ve X ile ilişkili iki A ve B noktası kümesine sahip olduğumu ve A ile B arasındaki "mesafeyi" ölçmek istediğimi - yani aynı dağılımdan örneklenmelerinin ne kadar muhtemel olduğunu varsayalım. (Dağılımların normal olduğunu …

28 multivariate-analysis terminology distance-functions

3

R ile zaman serileri hakkında bilgi sahibi olmak

Tekrar düşünürseniz, zaman serileri analizine ilk başladığınız zamana kadar. Bilmek istediğiniz hangi araçlar, R paketleri ve internet kaynakları? Sormaya çalıştığım şey, nereden başlamalı? Spesifik olarak, R için R ile zaman serileri analizinde "yeni" olan birini gerçekten kaynatan herhangi bir kaynak var mı?

28 r time-series

3

R'deki ayrık düzgün dağılımlar için varsayılan fonksiyonlar var mı?

R'deki çoğu standart dağılım bir komut ailesine sahiptir - pdf / pmf, cdf / cmf, kuantil, rasgele sapmalar (örneğin; dnorm, pnorm, qnorm, rnorm). Ayrık tekdüze dağılımlar için bu işlevleri yeniden üretmek için bazı standart komutları kullanmanın yeterince kolay olduğunu biliyorum, ama zaten R'de bilmediğim ayrık tekdüze dağılımları modellemek için tercih …

28 r distributions uniform