İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

6
Neden kovaryans tahmincisinin paydası n-1 yerine n-2 olmasın?
(Tarafsız) varyans tahmincisi paydası olan n−1n−1n-1 olduğu gibi nnn gözlemler ve sadece bir parametre tahmin ediliyor. V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} Aynı şekilde , iki parametre tahmin edilirken neden kovaryans paydasının olması gerektiğini merak ediyorum n−2n−2n-2? Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

3
'Çağ', 'toplu iş' ve 'minibatch' arasındaki farklar nelerdir?
Bildiğim kadarıyla, öğrenme algoritması olarak Stokastik Degrade İnişini benimsediğinde, birileri tam veri kümesi için 'çağ', bir güncelleme adımında kullanılan veriler için 'küme' kullanırken bir başkası sırasıyla 'küme' ve 'minibatch'i kullanıyor; Diğerleri 'çağ' ve 'minibatch' kullanır. Bu tartışırken çok kafa karışıklığı getiriyor. Peki doğru söyleniş nedir? Ya da sadece kabul edilebilir …

5
P-değeri esasen işe yaramaz ve kullanımı tehlikeli midir?
Bu yazıda NY Times'dan "Sürekli Olarak Güncellenme Oranı" dikkatimi çekti. Kısacası, bunu belirtir [Bayesian istatistikleri], eksik balıkçı John Aldridge'i bulmak için 2013 yılında kullanılan Sahil Güvenlik gibi aramalar da dahil olmak üzere karmaşık sorunlara yaklaşmakta özellikle yararlı olduğunu kanıtlıyor (şu ana kadar olmasa da, Malezya Havayolları Uçuş 370 avında). ......, …

2
Efekt paketi ile daha yaşlı nesneler için güven aralıkları ne kadar güvenilirdir?
EffectsPaket için çok hızlı ve kolay bir yol sağlar karışık etki modeli sonuçlar doğrusal çizilmesi ile elde edilen lme4bir paket . effectFonksiyon hesaplar güven aralığı (GA) çok hızlı bir şekilde, ama nasıl güvenilir bunlar güven aralıkları nelerdir? Örneğin: library(lme4) library(effects) library(ggplot) data(Pastes) fm1 <- lmer(strength ~ batch + (1 | …

2
Hangi çapraz doğrulama yönteminin en iyi olduğunu nasıl bilebilirim?
Durumum için hangi çapraz doğrulama yönteminin en iyisi olduğunu bulmaya çalışıyorum. Aşağıdaki veriler sadece (R cinsinden ) konu üzerinde çalışmak için bir örnektir, fakat benim gerçek Xverilerim ( xmat) birbirleriyle ve ydeğişken ( ymat) değişkeniyle farklı derecelerle ilişkilendirilmektedir . R kodu verdim, ancak sorum R ile ilgili değil, yöntemlerle ilgili. …

2
İki sınıflı sınıflandırıcı olarak LDA'ya göre lojistik regresyon
Kafamı Lineer diskriminant analizi ve Lojistik regresyon arasındaki istatistiksel farkın etrafına sarmaya çalışıyorum . Anladığım kadarıyla, bir iki sınıflandırma problemi için, LDA kesiştikleri yerde lineer bir sınır oluşturan iki normal yoğunluk fonksiyonunu (her bir sınıf için bir tane) tahmin eder, oysa lojistik regresyon sadece iki sınıf arasındaki tek günlük fonksiyonu …

4
Polinom modelindeki katsayılar nasıl yorumlanır?
Sahip olduğum bazı verilere ikinci dereceden bir polinom uyumu yaratmaya çalışıyorum. Diyelim ki bu uyumu şöyle çizdim ggplot(): ggplot(data, aes(foo, bar)) + geom_point() + geom_smooth(method="lm", formula=y~poly(x, 2)) Alırım: Bu yüzden, ikinci dereceden bir form uyumu oldukça iyi çalışıyor. R ile hesaplarım: summary(lm(data$bar ~ poly(data$foo, 2))) Ve anladım: lm(formula = data$bar …

5
FDR kontrolünde olağan metodu kullanmanın bir koşulu olarak “pozitif bağımlılığın” anlamı
Benjamini ve Hochberg , yanlış keşif oranını (FDR) kontrol etmek için ilk (ve hala en çok kullanılan bence) yöntemi geliştirdi. Her biri farklı bir karşılaştırma için bir grup P değeri ile başlamak ve hangisinin “keşif” olarak adlandırılacak kadar düşük olduğuna karar vermek, FDR'yi belirli bir değerle kontrol etmek istiyorum (% …

6
Analitik olarak, bir miktarı rastgele bölmenin üssel bir dağılıma (örneğin gelir ve servet) neden olduğunu nasıl kanıtlayabilirim?
BİLİM'in bu güncel makalesinde aşağıdakiler önerilmektedir: Diyelim ki rasgele bir şekilde 500 milyon kişiyi gelir ile 10.000 kişi arasında paylaştırın. Herkese eşit, 50.000 pay vermenin tek yolu var. Eğer kazancınızı rastgele dağıtıyorsanız, eşitlik son derece düşüktür. Ancak, birkaç kişiye çok para vermenin ve birçok kişiye hiç ya da hiçbir şey …



3
Doğrusal regresyonda katsayıların varyans-kovaryans matrisi nasıl elde edilir
Doğrusal regresyon hakkında bir kitap okuyorum ve nin varyans-kovaryans matrisini anlamada bazı problemlerim var :bb\mathbf{b} Köşegen öğeler yeterince kolaydır, ancak köşegen olmayan öğeler biraz daha zordur, beni şey şu: σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1 \sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1 ancak burada ve yok.β 1β0β0\beta_0β1β1\beta_1
36 regression 


4
R'de negatif olmayan değişkenlerin yoğunluk grafikleri için iyi yöntemler?
plot(density(rexp(100)) Açıkçası sıfırın solundaki tüm yoğunluk yanlılığı temsil ediyor. İstatist olmayanlar için bazı verileri özetlemeye çalışıyorum ve negatif olmayan verilerin neden sıfıra sol tarafa yoğunluğa sahip olduğuna dair sorulardan kaçınmak istiyorum. Grafikler randomizasyon kontrolü içindir; Değişkenlerin tedavi ve kontrol gruplarına göre dağılımını göstermek istiyorum. Dağılımlar genellikle üsteldir. Histogramlar çeşitli nedenlerden …

3
Hipotez testinde p değerinin yorumlanması
Geçenlerde "Boş Hipotez Önemlilik Testinin Önemsizliği", Jeff Gill (1999) adlı makaleyle karşılaştım . Yazar, hipotez testi ve p-değerleri ile ilgili iki özel sorum var. P-değeri teknik olarak kağıdı ile sivri dışarı olarak, genellikle bize yaklaşık bir bilgi vermez, , marjinal dağılımları bilmediğimiz sürece, "günlük" hipotez testlerinde nadiren durum böyledir. Küçük …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.