İstatistikler ve Büyük Veri

4

Dereceyi düşürmek yerine neden polinom regresyonunda düzenlileştirme kullanılmalı?

Örneğin, regresyon yaparken, seçilecek iki hiper parametresi genellikle fonksiyonun kapasitesidir (örneğin bir polinomun en büyük üssü) ve düzenlileştirme miktarıdır. Kafam karıştı, neden sadece düşük kapasiteli bir işlev seçmiyor ve ardından herhangi bir düzenlemeyi yok sayıyorsunuz? Bu şekilde, fazla giymeyecek. Düzenlemeyle birlikte yüksek kapasiteli bir işleve sahipsem, düşük kapasiteli bir işleve …

32 regression machine-learning optimization regularization polynomial

2

Entropi bize ne anlatıyor?

Entropi hakkında okuyorum ve sürekli durumda ne anlama geldiğini kavramsallaştırmakta zorlanıyorum. Viki sayfası aşağıdakileri belirtir: Olayların olasılık dağılımı, her olayın bilgi miktarı ile birleştiğinde, beklenen değeri, bu dağılım tarafından üretilen ortalama bilgi miktarı ya da entropi olan rastgele bir değişken oluşturur. Öyleyse, sürekli bir olasılık dağılımına ilişkin entropiyi hesaplarsam, bu …

32 entropy

2

Lojistik Regresyon: Bernoulli ve Binom Tepki Değişkenleri

Aşağıdaki binom yanıtı ve belirteçlerim olarak ve ile lojistik regresyon yapmak istiyorum . X1X1X_1X2X2X_2 Bernoulli'nin verdiği cevaplarla aynı verileri aşağıdaki biçimde sunabilirim. Bu 2 veri seti için lojistik regresyon çıktıları çoğunlukla aynıdır. Sapma artıkları ve AIC farklıdır. (Boş sapma ve artık sapma arasındaki fark her iki durumda da aynıdır - …

32 logistic binomial aic bernoulli-distribution deviance

3

Gözlemlenen verilerle eşleşecek bir hipotezi değiştirmek (aka balıkçılık gezisi) ve Tip I hatalarında bir artıştan kaçınmak mümkün mü?

Araştırmacıların, bir hipotez oluşturmadan önce mevcut verileri ve araştırmayı gözlemlemek ve araştırmak için zaman harcaması ve daha sonra bu hipotezi test etmek için veri toplaması gerektiği bilinmektedir (sıfır-hipotez önem testine atıfta bulunularak). Pek çok temel istatistik kitabı, hipotezlerin bir öncül oluşturulması gerektiği ve veri toplamadan sonra değiştirilemeyecekleri, aksi takdirde metodolojinin …

32 hypothesis-testing

3

Kovaryans matrisinin inversiyonu neden rastgele değişkenler arasında kısmi korelasyonlar sağlıyor?

Kovaryans matrisini ters çevirerek ve bu gibi sonuçlanan hassas matristen uygun hücreler alarak, rastgele değişkenler arasındaki kısmi korelasyonların bulunabileceğini duydum (bu gerçek http://en.wikipedia.org/wiki/Partial_correlation adresinde , ancak bir kanıt olmadan). . Bu neden böyle?

32 covariance covariance-matrix linear-algebra partial-correlation matrix-inverse

5

Neden iki "heteroskedastic" veya "heteroscedastic" yazılıyor?

Hem "heteroskedastic" hem de "heteroscedastic" ve benzer şekilde "homossedastic" ve "homoskedastic" için yazımları sık sık görüyorum. "C" ve "k" varyantları arasında anlam açısından bir fark bulunmuyor, sadece kelimenin Yunan etimolojisi ile ilgili bir ortografik fark var. İki farklı yazımın kökenleri nelerdir? Bir kullanım diğerinden daha yaygın mı ve bölgeler veya …

32 terminology heteroscedasticity etymology

3

Anscombe'nın dörtlüsüne benzer bir amaç için yapılmış veri kümeleri

Anscombe’nin dörtlüsüne rastladım (neredeyse ayırt edilemez betimleyici istatistiklere sahip olan ancak çizildiğinde çok farklı görünen dört veri kümesi) ve bazı yönlerin önemini göstermek için oluşturulmuş az çok iyi bilinen başka veri setlerinin olup olmadığını merak ediyorum. İstatistiksel analizler.

32 regression data-visualization dataset

1

Geçici Ağda Link Anomalisi Tespiti

Trend konularını tahmin etmek için link anomalisi tespitini kullanan bu makaleyle karşılaştım ve inanılmaz derecede ilgi çekici buldum: “Sosyal Bağlantılarda Yeni Gelişen Konuları Link Anomalisi Tespiti ile Keşfetmek” . Farklı bir veri setinde çoğaltmayı çok isterdim, ama onları nasıl kullanacaklarını bilecek yöntemlere yeterince aşina değilim. Diyelim ki altı aylık bir …

32 time-series machine-learning outliers python change-point

1

R'de anova () işlevini kullanarak iki modelin karşılaştırılması

Belgelere göre anova(): Bir dizi nesne verildiğinde, 'anova' modelleri belirtilen sıraya göre birbirleriyle test eder ... Modelleri birbirine karşı test etmek ne demektir? Peki sipariş neden önemli? GenABEL eğitiminden bir örnek : > modelAdd = lm(qt~as.numeric(snp1)) > modelDom = lm(qt~I(as.numeric(snp1)>=2)) > modelRec = lm(qt~I(as.numeric(snp1)>=3)) anova(modelAdd, modelGen, test="Chisq") Analysis of Variance …

32 r anova

3

Çekirdek lojistik regresyon vs SVM

Herkesin bildiği gibi, SVM çekirdek noktaları kullanarak veri noktalarını daha yüksek boşluklara yansıtır, böylece noktalar doğrusal bir boşlukla ayrılabilir. Ancak, çekirdek sınırında bu sınırı seçmek için lojistik regresyon kullanabiliriz, bu nedenle SVM'nin avantajları nelerdir? SVM, yalnızca bu destek vektörlerinin öngörme sırasında katkı sağladığı seyrek bir model kullandığından, bu durum SVM'yi …

32 svm

3

Kombine standart sapmayı bulmak mümkün mü?

2 setim olduğunu varsayalım: A ayarlayın : öğe sayısı n=10n=10n= 10 , μ=2.4μ=2.4\mu = 2.4 , σ=0.8σ=0.8\sigma = 0.8 B ayarı : öğe sayısı , ,μ = 2 σ = 1,2n=5n=5n= 5μ=2μ=2\mu = 2σ=1.2σ=1.2\sigma = 1.2 Birleştirilmiş ortalamayı ( ) kolayca bulabilirim, ancak birleştirilmiş standart sapmayı nasıl bulabilirim?μμ\mu

32 standard-deviation

6

Kabaca normal bir dağılımın ölçeğini tahmin etmek için sağlam bir Bayesian modeli ne olurdu?

Bir dizi sağlam tahmin edici vardır . Kayda değer bir örnek, olarak standart sapma ile ilgili olan medyan mutlak sapmadır . Bir Bayesian çerçevesinde , kabaca normal bir dağılımın konumunu (örneğin, aykırıklar tarafından kontamine olmuş bir Normal)) sağlam bir şekilde tahmin etmenin çeşitli yolları vardır; Şimdi benim sorum:σ= M A …

32 r bayesian estimation standard-deviation robust

4

CRF'nin python'a uygulanması

Popüler bir uygulama var mı Şartlı Rastgele Fields de Python ? Yaygın olarak kullanılan ve popüler bir şey bulamıyorum!

32 machine-learning classification python conditional-random-field

5

Politik anketlerin neden bu kadar büyük örneklem boyutları var?

Haberleri izlediğimde, Gallup'un cumhurbaşkanlığı seçimleri gibi şeylere yönelik anketlerin 1000'den fazla örneklem büyüklüğüne sahip olduğunu gördüm. Üniversite istatistiklerinden hatırladığım kadarıyla 30'luk bir örneklem büyüklüğünün "oldukça büyük" bir örnek olmasıydı. 30'un üzerindeki bir örneklem büyüklüğünün azalan verimlerden dolayı anlamsız olduğu görülmüştür.

32 sampling sample-size power-analysis

5

Model seçiminde AIC kuralları

BIC'yi genellikle benim anlayışım olarak, para cezasına AIC'den daha güçlü bir şekilde değer verdiği için kullanıyorum. Ancak şimdi daha kapsamlı bir yaklaşım kullanmaya karar verdim ve AIC'yi de kullanmak istiyorum. Raftery'nin (1995) BIC farklılıkları için güzel kurallar sunduğunu biliyorum: 0-2 zayıf, 2-4 bir modelin daha iyi olduğunun kanıtıdır. Ders kitaplarına …

32 r model-selection references aic bic