İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

4
Dereceyi düşürmek yerine neden polinom regresyonunda düzenlileştirme kullanılmalı?
Örneğin, regresyon yaparken, seçilecek iki hiper parametresi genellikle fonksiyonun kapasitesidir (örneğin bir polinomun en büyük üssü) ve düzenlileştirme miktarıdır. Kafam karıştı, neden sadece düşük kapasiteli bir işlev seçmiyor ve ardından herhangi bir düzenlemeyi yok sayıyorsunuz? Bu şekilde, fazla giymeyecek. Düzenlemeyle birlikte yüksek kapasiteli bir işleve sahipsem, düşük kapasiteli bir işleve …

2
Entropi bize ne anlatıyor?
Entropi hakkında okuyorum ve sürekli durumda ne anlama geldiğini kavramsallaştırmakta zorlanıyorum. Viki sayfası aşağıdakileri belirtir: Olayların olasılık dağılımı, her olayın bilgi miktarı ile birleştiğinde, beklenen değeri, bu dağılım tarafından üretilen ortalama bilgi miktarı ya da entropi olan rastgele bir değişken oluşturur. Öyleyse, sürekli bir olasılık dağılımına ilişkin entropiyi hesaplarsam, bu …
32 entropy 

2
Lojistik Regresyon: Bernoulli ve Binom Tepki Değişkenleri
Aşağıdaki binom yanıtı ve belirteçlerim olarak ve ile lojistik regresyon yapmak istiyorum . X1X1X_1X2X2X_2 Bernoulli'nin verdiği cevaplarla aynı verileri aşağıdaki biçimde sunabilirim. Bu 2 veri seti için lojistik regresyon çıktıları çoğunlukla aynıdır. Sapma artıkları ve AIC farklıdır. (Boş sapma ve artık sapma arasındaki fark her iki durumda da aynıdır - …

3
Gözlemlenen verilerle eşleşecek bir hipotezi değiştirmek (aka balıkçılık gezisi) ve Tip I hatalarında bir artıştan kaçınmak mümkün mü?
Araştırmacıların, bir hipotez oluşturmadan önce mevcut verileri ve araştırmayı gözlemlemek ve araştırmak için zaman harcaması ve daha sonra bu hipotezi test etmek için veri toplaması gerektiği bilinmektedir (sıfır-hipotez önem testine atıfta bulunularak). Pek çok temel istatistik kitabı, hipotezlerin bir öncül oluşturulması gerektiği ve veri toplamadan sonra değiştirilemeyecekleri, aksi takdirde metodolojinin …

3
Kovaryans matrisinin inversiyonu neden rastgele değişkenler arasında kısmi korelasyonlar sağlıyor?
Kovaryans matrisini ters çevirerek ve bu gibi sonuçlanan hassas matristen uygun hücreler alarak, rastgele değişkenler arasındaki kısmi korelasyonların bulunabileceğini duydum (bu gerçek http://en.wikipedia.org/wiki/Partial_correlation adresinde , ancak bir kanıt olmadan). . Bu neden böyle?

5
Neden iki "heteroskedastic" veya "heteroscedastic" yazılıyor?
Hem "heteroskedastic" hem de "heteroscedastic" ve benzer şekilde "homossedastic" ve "homoskedastic" için yazımları sık sık görüyorum. "C" ve "k" varyantları arasında anlam açısından bir fark bulunmuyor, sadece kelimenin Yunan etimolojisi ile ilgili bir ortografik fark var. İki farklı yazımın kökenleri nelerdir? Bir kullanım diğerinden daha yaygın mı ve bölgeler veya …


1
Geçici Ağda Link Anomalisi Tespiti
Trend konularını tahmin etmek için link anomalisi tespitini kullanan bu makaleyle karşılaştım ve inanılmaz derecede ilgi çekici buldum: “Sosyal Bağlantılarda Yeni Gelişen Konuları Link Anomalisi Tespiti ile Keşfetmek” . Farklı bir veri setinde çoğaltmayı çok isterdim, ama onları nasıl kullanacaklarını bilecek yöntemlere yeterince aşina değilim. Diyelim ki altı aylık bir …

1
R'de anova () işlevini kullanarak iki modelin karşılaştırılması
Belgelere göre anova(): Bir dizi nesne verildiğinde, 'anova' modelleri belirtilen sıraya göre birbirleriyle test eder ... Modelleri birbirine karşı test etmek ne demektir? Peki sipariş neden önemli? GenABEL eğitiminden bir örnek : > modelAdd = lm(qt~as.numeric(snp1)) > modelDom = lm(qt~I(as.numeric(snp1)>=2)) > modelRec = lm(qt~I(as.numeric(snp1)>=3)) anova(modelAdd, modelGen, test="Chisq") Analysis of Variance …
32 r  anova 

3
Çekirdek lojistik regresyon vs SVM
Herkesin bildiği gibi, SVM çekirdek noktaları kullanarak veri noktalarını daha yüksek boşluklara yansıtır, böylece noktalar doğrusal bir boşlukla ayrılabilir. Ancak, çekirdek sınırında bu sınırı seçmek için lojistik regresyon kullanabiliriz, bu nedenle SVM'nin avantajları nelerdir? SVM, yalnızca bu destek vektörlerinin öngörme sırasında katkı sağladığı seyrek bir model kullandığından, bu durum SVM'yi …
32 svm 

3
Kombine standart sapmayı bulmak mümkün mü?
2 setim olduğunu varsayalım: A ayarlayın : öğe sayısı n=10n=10n= 10 , μ=2.4μ=2.4\mu = 2.4 , σ=0.8σ=0.8\sigma = 0.8 B ayarı : öğe sayısı , ,μ = 2 σ = 1,2n=5n=5n= 5μ=2μ=2\mu = 2σ=1.2σ=1.2\sigma = 1.2 Birleştirilmiş ortalamayı ( ) kolayca bulabilirim, ancak birleştirilmiş standart sapmayı nasıl bulabilirim?μμ\mu

6
Kabaca normal bir dağılımın ölçeğini tahmin etmek için sağlam bir Bayesian modeli ne olurdu?
Bir dizi sağlam tahmin edici vardır . Kayda değer bir örnek, olarak standart sapma ile ilgili olan medyan mutlak sapmadır . Bir Bayesian çerçevesinde , kabaca normal bir dağılımın konumunu (örneğin, aykırıklar tarafından kontamine olmuş bir Normal)) sağlam bir şekilde tahmin etmenin çeşitli yolları vardır; Şimdi benim sorum:σ= M A …


5
Politik anketlerin neden bu kadar büyük örneklem boyutları var?
Haberleri izlediğimde, Gallup'un cumhurbaşkanlığı seçimleri gibi şeylere yönelik anketlerin 1000'den fazla örneklem büyüklüğüne sahip olduğunu gördüm. Üniversite istatistiklerinden hatırladığım kadarıyla 30'luk bir örneklem büyüklüğünün "oldukça büyük" bir örnek olmasıydı. 30'un üzerindeki bir örneklem büyüklüğünün azalan verimlerden dolayı anlamsız olduğu görülmüştür.

5
Model seçiminde AIC kuralları
BIC'yi genellikle benim anlayışım olarak, para cezasına AIC'den daha güçlü bir şekilde değer verdiği için kullanıyorum. Ancak şimdi daha kapsamlı bir yaklaşım kullanmaya karar verdim ve AIC'yi de kullanmak istiyorum. Raftery'nin (1995) BIC farklılıkları için güzel kurallar sunduğunu biliyorum: 0-2 zayıf, 2-4 bir modelin daha iyi olduğunun kanıtıdır. Ders kitaplarına …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.