İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

4
Küçük p değerleri daha ikna edici midir?
Ben okuyordum -değerlerinin, tip 1 hata oranları, anlamlılık düzeyleri güç hesaplamaları, efekt boyutları ve Neyman-Pearson tartışma vs Fisher. Bu beni biraz bunalmış hissetmeme neden oldu. Metin duvarı için özür dilerim, ancak şu anki sorularıma geçmeden önce bu kavramlarla ilgili şu anki anlayışımı gözden geçirmenin gerekli olduğunu hissettim.ppp Topladığım şeye göre, …

2
Bir 'p-değerinin tam değeri anlamsız mıdır?
Bir p değerinin kesin değerinin alakasız olduğunu belirttiği bir istatistikçi ile 2009'da bir tartışma yaptım: Önemli olan tek şey, önemli olup olmadığı. Yani bir sonuç diğerinden daha önemli olamaz; örneğin numuneleriniz aynı popülasyondan geliyor veya yok. Bununla ilgili bazı özelliklere sahibim, ama belki de ideolojiyi anlayabilirim: % 5 eşiği keyfidir, …


1
Negatif binom regresyon sorusu - Zayıf bir model midir?
Sellers ve Shmueli tarafından sayım verileri için regresyon modelleriyle ilgili çok ilginç bir makale okuyorum . Başlangıçta (p. 944) McCullaugh ve Nelder'den (1989) negatif binom regresyonunun popüler olmadığını ve sorunlu bir kanonik bağı olduğunu söyleyerek alıntı yaparlar . Belirtilen pasajı buldum ve şöyle diyor (s. 374, M ve N) "Uygulamalarda …

2
“Derin öğrenme” ile çok seviyeli / hiyerarşik modelleme arasındaki fark nedir?
"Derin öğrenme" çok düzeyli / hiyerarşik modelleme için başka bir terim midir? İkincisine öncekinden çok daha aşinayım, ancak söyleyebileceğim kadarıyla, temel fark tanımlarında değil, uygulama alanlarında nasıl kullanıldığı ve değerlendirildiği. Tipik bir "derin öğrenme" uygulamasındaki düğümlerin sayısı daha büyüktür ve genel bir hiyerarşik form kullanır, oysa çok seviyeli modelleme uygulamaları …

4
Neden düşük p değerleri boşa karşı daha fazla kanıt değil? Johansson 2011'den Bağımsız Değişkenler
Johansson (2011) " İmkansızları selamla: p-değerleri, kanıtlar ve olabilirlik " (ayrıca dergi ile bağlantı da buradadır ), düşük -değerlerinin çoğu zaman null'a karşı daha güçlü kanıtlar olarak kabul edildiğini belirtir . Johansson onların istatistik testi çıktısı eğer insanlar daha güçlü olması için boş aleyhindeki kanıtları dikkate alacağını ima ait -Değer …

5
Çizgi grafikleri için renk ve çizgi kalınlığı önerileri
Genel olarak haritalar, çokgenler ve genel olarak gölgeli bölgeler için renk dostu olmayan renk seçenekleri hakkında çok şey yazıldı (bkz. Örneğin http://colorbrewer2.org ). Çizgi renkleri ve çizgi grafikleri için değişen çizgi kalınlığı önerileri bulamadım. Hedefler: iç içe geçmiş olsalar bile çizgileri kolayca ayırt ederler çizgilerin en yaygın renk körlüğü formuna …

1
Büyük, seyrek bir matris üzerinde boyutsallık azaltma (SVD veya PCA)
/ edit: Şimdi daha fazla takip irlba :: prcomp_irlba kullanabilirsiniz / edit: kendi gönderimde takip etmek. irlbaŞimdi, temel bileşenleri hesaplamak için kullanmanıza izin veren "merkez" ve "ölçek" argümanlarına sahiptir, örneğin: pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v Büyük bir seyrek var Matrixben öğrenme algoritması bir makinede kullanmak istiyorum …

1
GBM parametreleri için bazı yararlı kurallar nelerdir?
GBM'yi kullanarak parametreleri test etmek için bazı yararlı kurallar (örneğin etkileşim derinliği, minchild, numune oranı, vb.) Nelerdir? Diyelim ki, 200.000 nüfuslu 70-100 özelliğe sahibim ve 3 ve 4'lük etkileşim derinliğini test etmeyi düşünüyorum. Açıkça, hangi parametrelerin kombinasyonunun en iyi örnek dışı kaldığını görmek için bazı testler yapmam gerekiyor. Bu test …


5
Birçok bağımsız değişkenden önemli prediktörlerin tespit edilmesi
Üst üste binmeyen iki popülasyonun veri setinde (hastalar ve sağlıklı, toplam n=60n=60n=60 ) bulmak istiyorum ( üzerinden bağımsız değişkenler) sürekli bir bağımlı değişken için önemli yordayıcılar. Prediktörler arasındaki korelasyon mevcuttur. Öngörülerden herhangi birinin "gerçekte" bağımlı değişkenle ilişkili olup olmadığını öğrenmekle ilgileniyorum (bağımlı değişkeni mümkün olduğu kadar önceden tahmin etmek yerine). …

8
Aykırı değerlerin ortalama ile değiştirilmesi
Bu soru internet meraklısı olmayan arkadaşım tarafından soruldu. İstatistik geçmişim yok ve bu soru için internette arama yapıyorum. Soru şudur: aykırı değerlerin ortalama değerle değiştirilmesi mümkün müdür? mümkünse, bu bildirimi yedeklemek için kitap referansı / dergi var mı?

2
İstatistiki Öğrenim Unsurlarından en yakın k sınıf komşu sınıflayıcısının karar sınırı nasıl çizilir?
Trevor Hastie ve Robert Tibshirani & Jerome Friedman'ın ElemStatLearn "İstatistiksel Öğrenmenin Öğeleri: Veri Madenciliği, Çıkarım ve Tahmin. İkinci Basım" kitabında açıklanan grafiği oluşturmak istiyorum. Arsa: Bu kesin grafiği nasıl üretebileceğimi merak ediyorum R, özellikle sınır grafiğini ve ızgara grafiklerini ve hesaplamalarını not edin.


3
Değişken seçimi neden gerekli?
Ortak veri tabanlı değişken seçim prosedürleri (örneğin, ileri, geri, kademeli, tüm alt kümeler) aşağıdakiler dahil olmak üzere istenmeyen özelliklere sahip modeller sağlama eğilimindedir: Katsayılar sıfırdan uzağa eğilimlidir. Çok küçük olan standart hatalar ve çok dar olan güven aralıkları. Reklamı yapılan anlamı olmayan test istatistikleri ve p değerleri. Aşırı iyimser olan …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.