İstatistikler ve Büyük Veri

4

Küçük p değerleri daha ikna edici midir?

Ben okuyordum -değerlerinin, tip 1 hata oranları, anlamlılık düzeyleri güç hesaplamaları, efekt boyutları ve Neyman-Pearson tartışma vs Fisher. Bu beni biraz bunalmış hissetmeme neden oldu. Metin duvarı için özür dilerim, ancak şu anki sorularıma geçmeden önce bu kavramlarla ilgili şu anki anlayışımı gözden geçirmenin gerekli olduğunu hissettim.ppp Topladığım şeye göre, …

31 hypothesis-testing statistical-significance confidence-interval p-value effect-size

2

Bir 'p-değerinin tam değeri anlamsız mıdır?

Bir p değerinin kesin değerinin alakasız olduğunu belirttiği bir istatistikçi ile 2009'da bir tartışma yaptım: Önemli olan tek şey, önemli olup olmadığı. Yani bir sonuç diğerinden daha önemli olamaz; örneğin numuneleriniz aynı popülasyondan geliyor veya yok. Bununla ilgili bazı özelliklere sahibim, ama belki de ideolojiyi anlayabilirim: % 5 eşiği keyfidir, …

31 statistical-significance p-value bonferroni

8

Artık bir günde doğma olasılığı?

Bugünün artık bir gün olduğu göz önüne alındığında, artık bir artık günde doğma olasılığını bilen var mı?

31 probability

1

Negatif binom regresyon sorusu - Zayıf bir model midir?

Sellers ve Shmueli tarafından sayım verileri için regresyon modelleriyle ilgili çok ilginç bir makale okuyorum . Başlangıçta (p. 944) McCullaugh ve Nelder'den (1989) negatif binom regresyonunun popüler olmadığını ve sorunlu bir kanonik bağı olduğunu söyleyerek alıntı yaparlar . Belirtilen pasajı buldum ve şöyle diyor (s. 374, M ve N) "Uygulamalarda …

31 regression modeling negative-binomial

2

“Derin öğrenme” ile çok seviyeli / hiyerarşik modelleme arasındaki fark nedir?

"Derin öğrenme" çok düzeyli / hiyerarşik modelleme için başka bir terim midir? İkincisine öncekinden çok daha aşinayım, ancak söyleyebileceğim kadarıyla, temel fark tanımlarında değil, uygulama alanlarında nasıl kullanıldığı ve değerlendirildiği. Tipik bir "derin öğrenme" uygulamasındaki düğümlerin sayısı daha büyüktür ve genel bir hiyerarşik form kullanır, oysa çok seviyeli modelleme uygulamaları …

31 machine-learning multilevel-analysis hierarchical-bayesian deep-learning

4

Neden düşük p değerleri boşa karşı daha fazla kanıt değil? Johansson 2011'den Bağımsız Değişkenler

Johansson (2011) " İmkansızları selamla: p-değerleri, kanıtlar ve olabilirlik " (ayrıca dergi ile bağlantı da buradadır ), düşük -değerlerinin çoğu zaman null'a karşı daha güçlü kanıtlar olarak kabul edildiğini belirtir . Johansson onların istatistik testi çıktısı eğer insanlar daha güçlü olması için boş aleyhindeki kanıtları dikkate alacağını ima ait -Değer …

31 hypothesis-testing statistical-significance p-value philosophical

5

Çizgi grafikleri için renk ve çizgi kalınlığı önerileri

Genel olarak haritalar, çokgenler ve genel olarak gölgeli bölgeler için renk dostu olmayan renk seçenekleri hakkında çok şey yazıldı (bkz. Örneğin http://colorbrewer2.org ). Çizgi renkleri ve çizgi grafikleri için değişen çizgi kalınlığı önerileri bulamadım. Hedefler: iç içe geçmiş olsalar bile çizgileri kolayca ayırt ederler çizgilerin en yaygın renk körlüğü formuna …

31 r data-visualization

1

Büyük, seyrek bir matris üzerinde boyutsallık azaltma (SVD veya PCA)

/ edit: Şimdi daha fazla takip irlba :: prcomp_irlba kullanabilirsiniz / edit: kendi gönderimde takip etmek. irlbaŞimdi, temel bileşenleri hesaplamak için kullanmanıza izin veren "merkez" ve "ölçek" argümanlarına sahiptir, örneğin: pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v Büyük bir seyrek var Matrixben öğrenme algoritması bir makinede kullanmak istiyorum …

31 r pca dimensionality-reduction svd matrix-decomposition

1

GBM parametreleri için bazı yararlı kurallar nelerdir?

GBM'yi kullanarak parametreleri test etmek için bazı yararlı kurallar (örneğin etkileşim derinliği, minchild, numune oranı, vb.) Nelerdir? Diyelim ki, 200.000 nüfuslu 70-100 özelliğe sahibim ve 3 ve 4'lük etkileşim derinliğini test etmeyi düşünüyorum. Açıkça, hangi parametrelerin kombinasyonunun en iyi örnek dışı kaldığını görmek için bazı testler yapmam gerekiyor. Bu test …

31 r hypothesis-testing cart boosting

4

Karmaşık veri ile analiz, farklı bir şey var mı?

Örneğin, doğrusal bir model yapıyorsunuz, ancak verileri karmaşıktır.yyy y=xβ+ϵy=xβ+ϵ y = x \beta + \epsilon Sayılar tüm olarak benim veri seti karmaşıktır, formu vardır . Bu verilerle çalışırken prosedürel olarak farklı bir şey var mı?( a + b i )yyy(a+bi)(a+bi)(a + bi) Soruyorum, çünkü karmaşık kovaryans matrisleri elde edecek ve …

31 regression anova data-transformation complex-numbers

5

Birçok bağımsız değişkenden önemli prediktörlerin tespit edilmesi

Üst üste binmeyen iki popülasyonun veri setinde (hastalar ve sağlıklı, toplam n=60n=60n=60 ) bulmak istiyorum ( üzerinden bağımsız değişkenler) sürekli bir bağımlı değişken için önemli yordayıcılar. Prediktörler arasındaki korelasyon mevcuttur. Öngörülerden herhangi birinin "gerçekte" bağımlı değişkenle ilişkili olup olmadığını öğrenmekle ilgileniyorum (bağımlı değişkeni mümkün olduğu kadar önceden tahmin etmek yerine). …

31 regression pca feature-selection stepwise-regression underdetermined

8

Aykırı değerlerin ortalama ile değiştirilmesi

Bu soru internet meraklısı olmayan arkadaşım tarafından soruldu. İstatistik geçmişim yok ve bu soru için internette arama yapıyorum. Soru şudur: aykırı değerlerin ortalama değerle değiştirilmesi mümkün müdür? mümkünse, bu bildirimi yedeklemek için kitap referansı / dergi var mı?

31 mean outliers robust winsorizing

2

İstatistiki Öğrenim Unsurlarından en yakın k sınıf komşu sınıflayıcısının karar sınırı nasıl çizilir?

Trevor Hastie ve Robert Tibshirani & Jerome Friedman'ın ElemStatLearn "İstatistiksel Öğrenmenin Öğeleri: Veri Madenciliği, Çıkarım ve Tahmin. İkinci Basım" kitabında açıklanan grafiği oluşturmak istiyorum. Arsa: Bu kesin grafiği nasıl üretebileceğimi merak ediyorum R, özellikle sınır grafiğini ve ızgara grafiklerini ve hesaplamalarını not edin.

31 r data-visualization k-nearest-neighbour

3

Shalizi'nin Bayesyeninin entegri temelli reddi zaman paradoksu geriye ok mu?

In Bu yazıda , yetenekli araştırmacı Cosma Shalizi tamamen öznel bir Bayes görüşünü kabul etmek, bir de (entropi akışı ile verilen) zamanın ok aslında gitmek gerektiğini Fiziksel olmayan bir sonuç kabul etmesi gerektiğini savunuyor geriye . Bu, ET Jaynes tarafından öne sürülen ve popüler hale getirilen azami entropi / tamamen …

31 bayesian entropy maximum-entropy philosophical

3

Değişken seçimi neden gerekli?

Ortak veri tabanlı değişken seçim prosedürleri (örneğin, ileri, geri, kademeli, tüm alt kümeler) aşağıdakiler dahil olmak üzere istenmeyen özelliklere sahip modeller sağlama eğilimindedir: Katsayılar sıfırdan uzağa eğilimlidir. Çok küçük olan standart hatalar ve çok dar olan güven aralıkları. Reklamı yapılan anlamı olmayan test istatistikleri ve p değerleri. Aşırı iyimser olan …

31 modeling feature-selection