İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

8
Her istatistikçi hangi teorileri bilmelidir?
Bunu çok temel, asgari ihtiyaçlar açısından düşünüyorum. Bir endüstri (akademik olmayan) istatistikçinin düzenli olarak bilmesi, anlaması ve kullanması gereken temel teoriler nelerdir? Akla gelen büyük bir büyük sayılar yasasıdır . İstatistiksel teoriyi veri analizine uygulamak için en gerekli olan nedir?

1
GAM'larda tensör ürün etkileşimlerinin ardındaki sezgi (R'de MGCV paketi)
Genelleştirilmiş katkı modelleri, örneğin . fonksiyonlar düzgündür ve tahmin edilir. Genellikle penaltılaşmış spline'lar. MGCV bunu yapan bir R paketidir ve yazar (Simon Wood) paketi hakkında R örnekleri ile bir kitap yazar. Ruppert ve ark. (2003) aynı şeyin basit versiyonları hakkında çok daha erişilebilir bir kitap yazmaktadır. y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha …

4
Sınıf dengesizliği altında Precision-Recall eğrileri için optimizasyon
Birkaç belirleyiciye sahip olduğum (biri en bilgilendirici olan) bir sınıflandırma görevim var ve sınıflandırıcımı oluşturmak için MARS modelini kullanıyorum (herhangi bir basit modelle ilgileniyorum ve açıklama amacıyla glms kullanmak çok iyi). Şimdi eğitim verilerinde çok büyük bir sınıf dengesizliği var (her pozitif örnek için yaklaşık 2700 negatif örnek). Bilgi Edinme …

9
Bir tahminci ile istatistik arasındaki fark nedir?
Bir istatistiğin örneklerden elde edebileceğiniz bir nitelik olduğunu öğrendim. Aynı büyüklükte birçok örnek alarak, bu özniteliği hepsi için hesaplayarak ve pdf'yi çizerek, ilgili özniteliğin dağılımını veya ilgili istatistiklerin dağılımını elde ettik. İstatistiğin tahmin ediciler için yapıldığını da duydum, bu iki kavram nasıl farklılık gösteriyor?

3
Olabilirlik titizlikle nasıl tanımlanır?
Olasılık, birkaç yolla tanımlanabilir, örneğin: fonksiyon den haritalar için örneğin, .LLLΘ×XΘ×X\Theta\times{\cal X}(θ,x)(θ,x)(\theta,x)L(θ∣x)L(θ∣x)L(\theta \mid x)L:Θ×X→RL:Θ×X→RL:\Theta\times{\cal X} \rightarrow \mathbb{R} rastgele işlevL(⋅∣X)L(⋅∣X)L(\cdot \mid X) Olasılığın sadece "gözlenen" olasılık olduğunu düşünebilirizL(⋅∣xobs)L(⋅∣xobs)L(\cdot \mid x^{\text{obs}}) Uygulamada olabilirlik hakkında bilgi getiriyor sadece çarpımsal sabite kadar, dolayısıyla biz fonksiyonların bir denklik sınıfına ziyade bir fonksiyonu olarak olasılığını düşünebilirizθθ\theta …

6
Çizgi grafikte çok fazla çizgi var, daha iyi bir çözüm var mı?
Zaman içinde, kullanıcıların (bu durumda, "beğenmeler") eylemlerinin sayısını grafik çizmeye çalışıyorum. Dolayısıyla, y eksenim olarak "işlem sayısı" var, x eksenim zaman (hafta) ve her satır bir kullanıcıyı temsil ediyor. Benim sorunum bu verilere yaklaşık 100 kullanıcı grubu için bakmak istiyorum. Bir çizgi grafiği hızla 100 çizgi ile karışık bir karışıklık …

3
Birçok kümenin kesişme noktalarını görselleştirme
Birçok kümenin kesişme örtüşmesini göstermek için iyi bir görselleştirme modeli var mı? Venn diyagramları gibi bir şey düşünüyorum ama bu bir şekilde 10 veya daha fazla gibi daha büyük setlere kendini daha iyi borç verebilir. Wikipedia bazı daha yüksek Venn şemalarını gösteriyor ancak 4 set şeması bile içeri girecek çok …


2
Temel bileşen analizinde biplotların yorumlanması
Bu güzel derse rastladım: R Kullanarak İstatistiksel Analiz El Kitabı. Bölüm 13. Temel Bileşen Analizi: PCA'nın R dilinde nasıl yapıldığına dair Olimpik Heptatlon . Şekil 13.3'ün yorumunu anlamıyorum: Bu yüzden ilk özvektöre karşı ikinci özvektöre komplo yapıyorum. Bu ne anlama geliyor? Birinci özvektöre karşılık gelen özdeğerin, veri kümesindeki değişimin% 60'ını …

3
Bir zaman serisinin durağan ya da durağan olmadığını nasıl bilebilirim?
Ben R kullanıyorum, ben Google'da arama öğrendik kpss.test(), PP.test()ve adf.test()zaman serilerinin durağanlık hakkında bilmek için kullanılır. Ama sonuçlarını yorumlayabilen bir istatistikçi değilim. > PP.test(x) Phillips-Perron Unit Root Test data: x Dickey-Fuller = -30.649, Truncation lag parameter = 7, p-value = 0.01 > kpss.test(b$V1) KPSS Test for Level Stationarity data: b$V1 …

3
R, metin sınıflandırma görevlerine ne kadar iyi ölçeklenir? [kapalı]
R ile hız kazanmaya çalışıyorum. Sonunda metin sınıflandırma yapmak için R kütüphanelerini kullanmak istiyorum. Metin sınıflandırma söz konusu olduğunda, insanların R'nin ölçeklenebilirliği ile ilgili deneyimlerinin neler olduğunu merak ediyordum. Büyük boyutlu verilerle karşılaşmam muhtemel (~ 300k boyutları). Özellikle sınıflandırma algoritmaları olarak SVM ve Random Forest kullanmaya bakıyorum. R kütüphaneleri sorun …

6
Binom güven aralığı tahmini - neden simetrik değil?
Binom oranının güven aralıklarını tahmin etmek için aşağıdaki r kodunu kullandım, çünkü alıcının karakteristik eğri tasarımlarını bir popülasyondaki saptamaya bakarak tasarlarken bunun bir "güç hesaplamasının" yerini aldığını biliyorum. n, 150'dir ve hastalığın popülasyonda% 25 oranında yaygın olduğuna inanıyoruz. % 75 hassasiyet ve% 90 özgüllük için değerleri hesapladım (çünkü insanların yaptığı …


6
Güven aralıkları ne zaman faydalıdır?
Doğru anlarsam bir parametrenin güven aralığı, belirli bir örnek oranı için gerçek değeri içeren aralıkları veren bir yöntem tarafından oluşturulan bir aralıktır. Dolayısıyla 'güven', belirli bir örneklemden hesapladığım aralıktan çok yöntemle ilgilidir. Bir istatistik kullanıcısı olarak, tüm örneklerin alanı varsayımsal olduğu için bunu hep aldattım. Sahip olduğum tek şey bir …

1
Merkezleme PCA'da nasıl bir fark yaratır (SVD ve öz ayrıştırma için)?
PCA için verilerinizi merkezleme (veya anlamdan çıkarma) ne fark eder? Matematiği kolaylaştırdığını ya da ilk bilgisayarın değişkenlerin araçlarına hâkim olmasını engellediğini duydum, ancak henüz kavramı tam olarak kavrayamadığımı hissediyorum. Örneğin, buradaki en üstteki cevap Verileri merkezlemek regresyon ve PCA'daki engellemeden nasıl kurtulur? Merkezlenmenin ilk PCA'yı nokta bulutunun ana ekseni yerine …
30 r  pca  svd  eigenvalues  centering 

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.