İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

3
Ortogonal, korelasyon ve bağımsızlık arasındaki ilişki nedir?
ANOVA'nın bir yönünden farklı olan araçları bulmak için planlı kontrastları kullanırken, kısıtlamaların birbirleriyle ilişkisiz olmaları ve tip I hatasının şişirilmelerini engellemeleri için ortogonal olması gerektiğini söyleyen bir makale okudum. Ortogonalın neden hiçbir koşulda ilişkisiz olduğunu anlamadım. Bunun görsel / sezgisel bir açıklamasını bulamıyorum, bu yüzden bu makaleleri / cevapları anlamaya …

2
PCA ve LDA'yı birleştirmek mantıklı mı?
Örneğin bir Bayes sınıflandırıcısı aracılığıyla denetimli bir istatistiksel sınıflandırma görevi için bir veri setine sahip olduğumu varsayalım. Bu veri seti 20 özellikten oluşuyor ve Temel Bileşen Analizi (PCA) ve / veya Doğrusal Ayrımcı Analizi (LDA) gibi boyutsallık azaltma teknikleri ile onu 2 özelliğe çıkarmak istiyorum. Her iki teknik de verileri …

3
Önyargılı maksimum olabilirlik tahmin edicilerinin arkasındaki sezgisel muhakeme
Önyargılı maksimum olabilirlik (ML) tahmin edicileri hakkında bir kafa karışıklığım var . Bütün kavramın matematiği benim için oldukça açık ama arkasındaki sezgisel mantığı bulamıyorum. Tahmini almak istediğimiz bir parametrenin işlevi olan bir dağılımdan örnekleri olan belirli bir veri kümesi göz önüne alındığında, ML tahmincisi, veri kümesini üretmesi en muhtemel olan …

5
En önemli ana bileşenler, bağımlı değişken üzerindeki tahmin gücünü nasıl koruyabilir (hatta daha iyi tahminlere yol açabilir)?
Diyelim ki bir regresyon . Neden üst seçerek ilkesi bileşenleri , model üzerindeki öngörü gücünü korumak mu ?Y∼XY∼XY \sim XkkkXXXYYY Ben boyutluluk-azaltma / görüş özellikli seçme noktasında, eğer gelen anlıyoruz kovaryans matrisinin öz vektörleri olduğundan üst ile özdeğerler, ardından üst olan ana bileşenler maksimum varyans ile. Böylece, özelliklerin sayısını azaltabilir …


3
Regresyonda sırt düzeneğinin yorumlanması
En küçük kareler bağlamında sırt cezası ile ilgili birkaç sorum var: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) İfade, X'in kovaryans matrisinin köşegen bir matrise doğru küçüldüğünü, yani (değişkenlerin işlemden önce standartlaştırıldığı varsayılarak) girdi değişkenleri arasındaki korelasyonun azaltılacağını önermektedir. Bu yorum doğru mu? 2) Eğer büzülme uygulamasıysa neden satırlarına formüle …


3
Hiyerarşik bir küme analizinin dendrogramı nasıl yorumlanır?
Aşağıdaki R örneğini düşünün: plot( hclust(dist(USArrests), "ave") ) Y ekseni "Yükseklik" tam olarak ne anlama geliyor? Kuzey Carolina ve Kaliforniya'ya bakmak (sol tarafta). Kaliforniya, Kuzey Carolina’ya Arizona’dan daha yakın mı? Bu yorumu yapabilir miyim? Hawaii (sağda) kümeye oldukça geç katılıyor. Bunu diğer devletlerden daha "yüksek" olarak görebiliyorum. Genel olarak dendrogramda …

5
Karma doğrusal modelde çoklu bağlantı doğrusallığı nasıl test edilir ve önlenir?
Şu anda bazı karışık efektli doğrusal modeller kullanıyorum. R içinde "lme4" paketini kullanıyorum. Modellerim şu formu alıyor: model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) Modellerimi çalıştırmadan önce, öngörücüler arasında olası çoklu bağlantı olup olmadığını kontrol ettim. Bunu ben yaptım: Tahmin edicilerin bir veri çerçevesi oluşturun …

2
Kesişme ve eğim için OLS tahmin ediciler arasındaki korelasyon
Basit bir regresyon modelinde, y=β0+β1x+ε,y=β0+β1x+ε, y = \beta_0 + \beta_1 x + \varepsilon, OLS tahmin edicileri ve ilişkilendirilir.ββ^OLS0β^0OLS\hat{\beta}_0^{OLS}β^OLS1β^1OLS\hat{\beta}_1^{OLS} İki tahminci arasındaki korelasyon için formül (eğer doğru bir şekilde türetmişsem): Corr(β^OLS0,β^OLS1)=−∑ni=1xin−−√∑ni=1x2i−−−−−−−√.Corr⁡(β^0OLS,β^1OLS)=−∑i=1nxin∑i=1nxi2. \operatorname{Corr}(\hat{\beta}_0^{OLS},\hat{\beta}_1^{OLS}) = \frac{-\sum_{i=1}^{n}x_i}{\sqrt{n} \sqrt{\sum_{i=1}^{n}x_i^2} }. Sorular: Korelasyonun varlığı için sezgisel açıklama nedir? Korelasyonun varlığının önemli etkileri var mı? Sonrası edildi …

5
Bazı güçlü korelasyonların mevcut olduğu büyük bir tam aşamalı rasgele korelasyon matrisi nasıl oluşturulur?
Rasgele bir ilişkiyi gösteren bir tablo oluşturmak istiyorum arasında boyutu, bir orta güçlü bir ilişki mevcut olduğu: n × nCC\mathbf Cn×nn×nn \times n boyutunda kare gerçek simetrik matris, örneğin ;n×nn×nn \times nn=100n=100n=100 pozitif-kesin, yani tüm özdeğerlerle gerçek ve pozitif; tam rütbe; tüm diagonal elemanlar eşittir ;111 köşegen dışı elemanlar makul …

1
“Çekirdek yoğunluğu kestirimi” neyin bir dönüşümüdür?
Çekirdek yoğunluğu tahminini daha iyi anlamaya çalışıyorum. Vikipedi tanımını kullanarak: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition fh^( x ) = 1nΣni = 1Kh( x - xben)= 1n sΣni = 1K( x - xbenh)fh^(x)=1n∑i=1nKh(x−xi)=1nh∑i=1nK(x−xih) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) yi , ile ile arasında olması durumunda , (pencere boyutu) …

2
R prcomp sonuçları tahmin için nasıl kullanılır?
800 obs ile bir data.frame var. 40 değişkenden biriyim ve öngörümün sonuçlarını geliştirmek için Temel Bileşen Analizi'ni kullanmak istiyorum (şu ana kadar bazı 15 elle toplanan değişkenlerde Support Vector Machine ile en iyi şekilde çalışıyor). Bir prcomp 'ın tahminlerimi geliştirmeme yardımcı olabileceğini biliyorum, ancak prcomp fonksiyonunun sonuçlarını nasıl kullanacağımı bilmiyorum. …
25 r  pca 

4
R'deki karışık modellerin lmer / lme karışık modellerini kontrol etme
Üç farklı görevde 30 erkek ve 30 kadını test ettiğim tekrarlanan bir tasarım yaptım. Erkeklerin ve kadınların davranışlarının nasıl farklı olduğunu ve bunun göreve nasıl bağlı olduğunu anlamak istiyorum. Bunu araştırmak için hem lmer hem de lme4 paketini kullandım, ancak her iki yöntem için de varsayımları kontrol etmeye çalışıyorum. Çalıştırdığım …

2
Verilerin R'deki Poisson Dağılımını takip edip etmediğini nasıl bilebilirim?
Ben lisans öğrencisiyim ve olasılık dersim için bir projem var. Temel olarak, bir dizi yıl ülkemi etkileyen kasırgalar hakkında bir veri setim var. Olasılık Kitabımda, (R ile Olasılık ve İstatistik) verinin Poisson dağılımını takip edip etmediğini kontrol etmenin (tam değil) bir örneği var, bu 3 kriterin takip edildiğini kanıtlamaya çalışıyorlar: …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.