İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap


5
“Ortalama değer” ve “Ortalama” arasındaki fark nedir?
Wikipedia açıklar: Bir veri kümesi için, ortalama, değer sayısına bölünen değerlerin toplamıdır. Ancak bu tanım “ortalama” dediğim şeye tekabül ediyor (en azından öğrendiğimi hatırladım). Yine de Wikipedia'dan bir kez daha alıntılar: Bazı kişilerin ortalamaları ile karıştırdığı, 'medyan' ve 'mod' gibi örnekleri kullanan başka istatistiksel önlemler de vardır. Şimdi bu kafa …

3
Bir milyon görselleştirme, PCA baskısı
Temel Bileşen Analizi'nin çıktısını yalnızca özet tablolardan daha fazla içgörü kazandıracak şekillerde görselleştirmek mümkün mü? Gözlem sayısı büyük olduğunda bunu yapmak mümkün mü, örneğin ~ 1e4? Ve bunu R [diğer ortamlar kabul edilir] 'de yapmak mümkün müdür?

2
Bağımlı değişkenlerin ürün varyansı
Bağımlı değişkenlerin ürün varyansı için formül nedir? Bağımsız değişkenler durumunda, formül basittir: var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 Fakat ilişkili değişkenler için formül nedir? Bu arada, istatistiksel verilere dayanarak korelasyonu nasıl bulabilirim?

3
Goodman-Kruskal gama ve Kendall tau veya Spearman rho korelasyonları nasıl karşılaştırılır?
Çalışmamda, bazı veri kümeleri için öngörülen sıralamaları ve gerçek sıralamaları karşılaştırıyoruz. Yakın zamana kadar, Kendall-Tau'yu yalnız kullanıyorduk. Benzer bir proje üzerinde çalışan bir grup , bunun yerine Goodman-Kruskal Gamma'yı kullanmaya çalıştığımızı ve tercih ettiklerini önerdi . Farklı sıra korelasyon algoritmaları arasındaki farkların ne olduğunu merak ediyordum. Bulduğum en iyi şey …

1
BUGS ve R'deki parametreler hangi dağılımlar için farklıdır?
BUGS ve R'nin farklı parametrelere sahip olduğu bazı dağıtımlar buldum: Normal, log-Normal ve Weibull. Bunların her biri için, R tarafından kullanılan ikinci parametrenin BUGS'de (veya benim durumumda JAGS) kullanılmadan önce ters dönüştürülmesinin (1 / parametre) olması gerektiğini biliyorum. Halen var olan bu dönüşümlerin kapsamlı bir listesini bilen var mı? Bulduğum …

3
Güven aralığı ile t testi için istatistiksel hipotezi test etme arasındaki ilişki
Güven aralıklarının ve istatistiksel hipotezi test etmenin güçlü bir şekilde ilişkili olduğu iyi bilinmektedir. Sorularım, sayısal bir değişkene dayalı olarak iki grup için ortalamaların karşılaştırılmasına odaklanmıştır. Bu varsayımın t-testi kullanılarak test edildiğini varsayalım. Diğer taraftan, her iki grup için de güven aralıkları hesaplanabilir. Güven aralıklarının üst üste binmesi ile eşit …

6
Birisi sıfır eğriliğine sahip fakat simetrik olmayan bir tekdüze dağılım örneğini sunabilir mi?
Mayıs 2010'da Vikipedi kullanıcısı Mcorazao, çarpıklık makalesine "Sıfır bir değer, değerlerin ortalamanın her iki tarafına nispeten eşit şekilde dağıldığını, genellikle zorunlu olarak simetrik bir dağılım göstermediğini" belirten bir cümle ekledi . Ancak, wiki sayfasında bu kuralı ihlal eden gerçek bir dağıtım örneği yoktur. Googling "sıfır eğriltme ile asimetrik dağılımlar örneği" …

2
Lojistik regresyon ne zaman kapalı halde çözülür?
Al ve ve lojistik regresyon kullanılarak belirli bir x y tahmin görevini modeli varsayalım. Lojistik regresyon katsayıları ne zaman kapalı olarak yazılabilir?x∈{0,1}dx∈{0,1}dx \in \{0,1\}^dy∈{0,1}y∈{0,1}y \in \{0,1\} Bir örnek, doymuş bir model kullanmamızdır. Yani, , burada setleri güç kümesinde indeksler ve eğer 1 tüm değişkenler 'inci set aksi 1 ve 0 …

1
Karma efektler modelinde çoklu karşılaştırmalar
Bir karma efekt modeli kullanarak bazı verileri analiz etmeye çalışıyorum. Topladığım veriler zaman içinde farklı genotipteki bazı genç hayvanların ağırlığını temsil ediyor. Burada önerilen yaklaşımı kullanıyorum: https://gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ Özellikle 2 numaralı çözümü kullanıyorum Bu yüzden benim gibi bir şey var require(nlme) model <- lme(weight ~ time * Genotype, random = ~1|Animal/time, …

3
Diğer öngörücüleri dahil ettikten sonra işareti çeviren regresyon katsayıları
Hayal etmek Dört sayısal kestiricili doğrusal bir regresyon çalıştırıyorsunuz (IV1, ..., IV4) Öngörücü olarak sadece IV1 dahil edildiğinde standart beta +.20 Ayrıca IV2 ila IV4'ü dahil ettiğinizde, IV1'in standardize edilmiş regresyon katsayısının işareti -.25(örneğin negatif olur) ile çevrilir . Bu birkaç soruya yol açar: Terminoloji ile ilgili olarak, buna "baskılayıcı …

6
Araştırmanın daha uzun vadeli tekrarlanabilirliğini nasıl artırabilirim (özellikle R ve Sweave kullanarak)
Bağlam: Tekrarlanabilir araştırma konusundaki daha önceki bir soruya cevaben Jake yazdı JASA arşivimizi oluştururken keşfettiğimiz bir sorun, CRAN paketlerinin sürümlerinin ve varsayılanlarının değişmesiydi. Dolayısıyla, bu arşivde kullandığımız paketlerin sürümlerini de ekliyoruz. Skeç tabanlı sistem muhtemelen millet paketlerini değiştirdikçe bozulur (Ekstra paketin içine ilave paketlerin nasıl ekleneceğinden emin değilsiniz). Sonunda, R'nin …

8
Çok boyutlu verileri görselleştirmek için açık kaynaklı araçlar?
Gnuplot ve ggobi'nin yanı sıra , insanlar çok boyutlu verileri görselleştirmek için hangi açık kaynak araçlarını kullanıyor? Gnuplot az çok temel bir komplo paketidir. Ggobi gibi birçok güzel şey yapabilir: bir boyut boyunca veya ayrı koleksiyonlar arasında verileri canlandırmak katsayıları değiştiren doğrusal kombinasyonları canlandırmak Temel bileşenleri ve diğer dönüşümleri hesaplayabilir …

3
P-değerlerinin yerleşik görüşlerini almak
Bazen raporlarda, p değerleri ve sağladığım diğer çıkarımsal istatistikler hakkında bir feragatname ekliyorum. Örnek rastgele olmadığından, bu tür istatistiklerin kesinlikle uygulanmayacağını söylüyorum. Özel ifadelerim genellikle dipnotta verilmiştir: “Kesin konuşursak, çıkarımsal istatistikler yalnızca rastgele örnekleme bağlamında uygulanabilir olsa da, önemsiz düzeyler ve / veya güven aralıklarını, rastgele olmayan örnekler için bile …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.