İstatistikler ve Büyük Veri

6

Neden kovaryans tahmincisinin paydası n-1 yerine n-2 olmasın?

(Tarafsız) varyans tahmincisi paydası olan n−1n−1n-1 olduğu gibi nnn gözlemler ve sadece bir parametre tahmin ediliyor. V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} Aynı şekilde , iki parametre tahmin edilirken neden kovaryans paydasının olması gerektiğini merak ediyorum n−2n−2n-2? Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

36 self-study variance covariance descriptive-statistics unbiased-estimator

3

'Çağ', 'toplu iş' ve 'minibatch' arasındaki farklar nelerdir?

Bildiğim kadarıyla, öğrenme algoritması olarak Stokastik Degrade İnişini benimsediğinde, birileri tam veri kümesi için 'çağ', bir güncelleme adımında kullanılan veriler için 'küme' kullanırken bir başkası sırasıyla 'küme' ve 'minibatch'i kullanıyor; Diğerleri 'çağ' ve 'minibatch' kullanır. Bu tartışırken çok kafa karışıklığı getiriyor. Peki doğru söyleniş nedir? Ya da sadece kabul edilebilir …

36 machine-learning

5

P-değeri esasen işe yaramaz ve kullanımı tehlikeli midir?

Bu yazıda NY Times'dan "Sürekli Olarak Güncellenme Oranı" dikkatimi çekti. Kısacası, bunu belirtir [Bayesian istatistikleri], eksik balıkçı John Aldridge'i bulmak için 2013 yılında kullanılan Sahil Güvenlik gibi aramalar da dahil olmak üzere karmaşık sorunlara yaklaşmakta özellikle yararlı olduğunu kanıtlıyor (şu ana kadar olmasa da, Malezya Havayolları Uçuş 370 avında). ......, …

36 hypothesis-testing statistical-significance bayesian p-value reproducible-research

2

Efekt paketi ile daha yaşlı nesneler için güven aralıkları ne kadar güvenilirdir?

EffectsPaket için çok hızlı ve kolay bir yol sağlar karışık etki modeli sonuçlar doğrusal çizilmesi ile elde edilen lme4bir paket . effectFonksiyon hesaplar güven aralığı (GA) çok hızlı bir şekilde, ama nasıl güvenilir bunlar güven aralıkları nelerdir? Örneğin: library(lme4) library(effects) library(ggplot) data(Pastes) fm1 <- lmer(strength ~ batch + (1 | …

36 r mixed-model confidence-interval effects lme4-nlme

2

Hangi çapraz doğrulama yönteminin en iyi olduğunu nasıl bilebilirim?

Durumum için hangi çapraz doğrulama yönteminin en iyisi olduğunu bulmaya çalışıyorum. Aşağıdaki veriler sadece (R cinsinden ) konu üzerinde çalışmak için bir örnektir, fakat benim gerçek Xverilerim ( xmat) birbirleriyle ve ydeğişken ( ymat) değişkeniyle farklı derecelerle ilişkilendirilmektedir . R kodu verdim, ancak sorum R ile ilgili değil, yöntemlerle ilgili. …

36 r regression cross-validation linear-model

2

İki sınıflı sınıflandırıcı olarak LDA'ya göre lojistik regresyon

Kafamı Lineer diskriminant analizi ve Lojistik regresyon arasındaki istatistiksel farkın etrafına sarmaya çalışıyorum . Anladığım kadarıyla, bir iki sınıflandırma problemi için, LDA kesiştikleri yerde lineer bir sınır oluşturan iki normal yoğunluk fonksiyonunu (her bir sınıf için bir tane) tahmin eder, oysa lojistik regresyon sadece iki sınıf arasındaki tek günlük fonksiyonu …

36 regression logistic classification discriminant-analysis

4

Polinom modelindeki katsayılar nasıl yorumlanır?

Sahip olduğum bazı verilere ikinci dereceden bir polinom uyumu yaratmaya çalışıyorum. Diyelim ki bu uyumu şöyle çizdim ggplot(): ggplot(data, aes(foo, bar)) + geom_point() + geom_smooth(method="lm", formula=y~poly(x, 2)) Alırım: Bu yüzden, ikinci dereceden bir form uyumu oldukça iyi çalışıyor. R ile hesaplarım: summary(lm(data$bar ~ poly(data$foo, 2))) Ve anladım: lm(formula = data$bar …

36 r regression interpretation regression-coefficients

5

FDR kontrolünde olağan metodu kullanmanın bir koşulu olarak “pozitif bağımlılığın” anlamı

Benjamini ve Hochberg , yanlış keşif oranını (FDR) kontrol etmek için ilk (ve hala en çok kullanılan bence) yöntemi geliştirdi. Her biri farklı bir karşılaştırma için bir grup P değeri ile başlamak ve hangisinin “keşif” olarak adlandırılacak kadar düşük olduğuna karar vermek, FDR'yi belirli bir değerle kontrol etmek istiyorum (% …

36 multiple-comparisons non-independent false-discovery-rate

6

Analitik olarak, bir miktarı rastgele bölmenin üssel bir dağılıma (örneğin gelir ve servet) neden olduğunu nasıl kanıtlayabilirim?

BİLİM'in bu güncel makalesinde aşağıdakiler önerilmektedir: Diyelim ki rasgele bir şekilde 500 milyon kişiyi gelir ile 10.000 kişi arasında paylaştırın. Herkese eşit, 50.000 pay vermenin tek yolu var. Eğer kazancınızı rastgele dağıtıyorsanız, eşitlik son derece düşüktür. Ancak, birkaç kişiye çok para vermenin ve birçok kişiye hiç ya da hiçbir şey …

36 distributions mathematical-statistics exponential

1

Heteroskedastik veriler için tek yönlü ANOVA alternatifleri

Eşit olmayan örneklem büyüklükleri ( , , ) içeren 3 grup yosun biyokütlesinden ( , , ) verilerim var ve bu grupların aynı popülasyondan olup olmadıklarını karşılaştırmak istiyorum.AAAC n A = 15 n B = 13 n C = 12BBBCCCnA=15nA=15n_A=15nB=13nB=13n_B=13nC=12nC=12n_C=12 Tek yönlü ANOVA kesinlikle gidilecek yol olacaktır, ancak verilerim üzerinde …

36 r anova data-transformation heteroscedasticity

2

0 veya 1'in binomik tahmini etrafındaki güven aralığı

Tahmininiz (veya benzer şekilde p = 1 ) ve numune büyüklüğünün göreceli olarak küçük olması durumunda, örneğin n = 25 ise, binomal bir deneyin güven aralığını hesaplamak için en iyi teknik hangisidir?p = 0p=0p=0p = 1p=1p=1n = 25n=25n=25

36 confidence-interval binomial

3

Doğrusal regresyonda katsayıların varyans-kovaryans matrisi nasıl elde edilir

Doğrusal regresyon hakkında bir kitap okuyorum ve nin varyans-kovaryans matrisini anlamada bazı problemlerim var :bb\mathbf{b} Köşegen öğeler yeterince kolaydır, ancak köşegen olmayan öğeler biraz daha zordur, beni şey şu: σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1 \sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1 ancak burada ve yok.β 1β0β0\beta_0β1β1\beta_1

36 regression

2

Dinamik-tek-dinlenmeye karşı çoklu-lojistik lojik regresyon

Diyelim ki, birkaç kategori ve bağımsız değişkenler içeren bağımlı bir değişkenimiz var. YYY Multinomial lojistik regresyonun, ikili lojistik regresyon setine (örn. Bir-dinlenme düzeni ) göre avantajları nelerdir ? Grubu tarafından lojistik regresyon I ortalama her bir kategori için Hedefe = 1 ayrı lojistik regresyon modeli oluşturmak Y = y ı …

36 logistic categorical-data multinomial

4

R'de negatif olmayan değişkenlerin yoğunluk grafikleri için iyi yöntemler?

plot(density(rexp(100)) Açıkçası sıfırın solundaki tüm yoğunluk yanlılığı temsil ediyor. İstatist olmayanlar için bazı verileri özetlemeye çalışıyorum ve negatif olmayan verilerin neden sıfıra sol tarafa yoğunluğa sahip olduğuna dair sorulardan kaçınmak istiyorum. Grafikler randomizasyon kontrolü içindir; Değişkenlerin tedavi ve kontrol gruplarına göre dağılımını göstermek istiyorum. Dağılımlar genellikle üsteldir. Histogramlar çeşitli nedenlerden …

36 r pdf gamma-distribution kernel-smoothing

3

Hipotez testinde p değerinin yorumlanması

Geçenlerde "Boş Hipotez Önemlilik Testinin Önemsizliği", Jeff Gill (1999) adlı makaleyle karşılaştım . Yazar, hipotez testi ve p-değerleri ile ilgili iki özel sorum var. P-değeri teknik olarak kağıdı ile sivri dışarı olarak, genellikle bize yaklaşık bir bilgi vermez, , marjinal dağılımları bilmediğimiz sürece, "günlük" hipotez testlerinde nadiren durum böyledir. Küçük …

36 hypothesis-testing p-value