İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap


3
Naif Bayes'i Anlamak
Gönderen StatSoft, Inc. (2013), Elektronik İstatistik Kitabı , "Naif Bayes Sınıflandırıcı" : Naif Bayes Sınıflandırması kavramını göstermek için, yukarıdaki şekilde gösterilen örneği düşünün. Belirtildiği gibi, nesneler YEŞİL veya KIRMIZI olarak sınıflandırılabilir. Benim görevim yeni davaları ulaştıklarında sınıflandırmak, yani şu anda mevcut olan nesnelere dayanarak hangi sınıf etiketine ait olduklarına karar …

5
Örneklem popülasyonda “olduğunda” istatistiksel çıkarım
Yıllık olarak belirli bir sınava giren adayların sayısını bildirmek zorunda olduğunuzu hayal edin. Hedef popülasyonun niteliği nedeniyle, daha geniş bir popülasyonda, örneğin, gözlenen başarının% 'sini anlamak oldukça zor görünüyor. Yani bu verilerin tüm popülasyonu temsil ettiğini düşünebilirsiniz. Erkek ve kadın oranlarının farklı olduğunu gösteren testlerin sonuçları gerçekten doğru mu? Gözlemlenen …

5
İki grup için t testi ve ANOVA eşitse, neden varsayımları eşdeğer değildir?
Kafamın etrafına tamamen sarıldığına eminim, ama çözemiyorum. T testi, Z dağılımını kullanarak iki normal dağılım karşılaştırır. Bu nedenle DATA'da bir normallik varsayımı var. ANOVA kukla değişkenli doğrusal regresyona eşdeğerdir ve aynı OLS gibi kareler toplamı kullanır. Bu yüzden RESIDUALS normalliği varsayımı var. Birkaç yılını aldı, ama sanırım sonunda bu temel …

10
Büyük bir defalarca okunan veri kümesinin ortancasını tahmin etmek için iyi bir algoritma nedir?
Saklamak için çok büyük bir veri kümesinin ortancasını tahmin etmek için iyi bir algoritma (en az hesaplama, en az depolama gereksinimleri anlamına gelir) arıyorum, öyle ki her bir değer yalnızca bir kez okunabilir (bu değeri açıkça saklayamazsanız). Varsayılabilecek verilerde sınır yoktur. Doğruluğu bilindiği sürece, yaklaşımlar iyidir. Herhangi bir işaretçi var …

2
Konvolüsyonel Sinir Ağları neden sınıflandırmak için bir Destek Vektör Makinesi kullanmıyor?
Son yıllarda, Konvolüsyonel Sinir Ağları (CNN'ler) bilgisayar vizyonunda nesne tanıma konusunda son teknoloji haline geldi. Tipik olarak, bir CNN birkaç evrimli tabakadan sonra bunu iki tam bağlı tabakadan oluşur. Bunun arkasındaki sezgisi, evrişimli katmanların girdi verilerinin daha iyi bir gösterimini öğrenmesi ve tam olarak bağlı olan katmanlar daha sonra bu …

2
Neden sık hipotez testleri, null hipotezini yeterince büyük örneklerle reddetmeye karşı önyargılı hale geliyor?
Bu bölüme girdiğimde tamamen alakasız bir problem için Bayes faktörü hakkındaki bu makaleyi okuyordum. Bayes faktörleri ile yapılan hipotez testleri, sık rastlanan hipotez testlerinden daha sağlamdır, çünkü Bayesian formu model seçim yanlılığını önler, kanıtları boş hipotez lehine değerlendirir, model belirsizliği içerir ve iç içe geçmemiş modellerin karşılaştırılmasına izin verir (tabii …

6
Artıklar “öngörülen eksi gerçek” veya “gerçek eksi tahmin ediliyor” mu?
Farklı olarak "tahmini eksi gerçek değerler" veya "gerçek eksi öngörülen değerler" olarak tanımlanan "artıklar" gördüm. Gösterim amacıyla, her iki formülün de yaygın bir şekilde kullanıldığını göstermek için, aşağıdaki Web aramalarını karşılaştırın: artık "öngörülen eksi gerçek" artık "gerçek eksi tahmin edildi" Uygulamada, neredeyse hiç bir fark yaratmaz, çünkü bireysel artıkların işareti …

2
Bir Bayesian neden artıklara bakmıyor?
"Tartışma: Ekolojistler Bayezyalı Olmalı mı?" Brian Dennis, amacı insanları bu konuda uyarmak gibi göründüğünde Bayesian istatistiklerine şaşırtıcı derecede dengeli ve olumlu bir bakış açısı veriyor. Ancak, bir paragrafta, herhangi bir alıntı veya gerekçesiz, şöyle diyor: Bayesanların artıklarına bakmalarına izin verilmiyor. Bir sonucu modelin ne kadar aşırı olduğuna göre yargılama olasılığı …


2
Kovaryans matrisinin tersi veriler hakkında ne diyor? (Sezgisel)
in doğası hakkında merak ediyorum . Herhangi biri sezgisel bir şey söyleyebilir: " veri hakkında ne diyor?" Σ - 1Σ−1Σ−1\Sigma^{-1}Σ−1Σ−1\Sigma^{-1} Düzenle: Cevaplar için teşekkürler Harika dersler aldıktan sonra bazı noktalar eklemek isterim: Bilginin ölçüsüdür, yani, , yönü boyunca bilgi miktarıdır .xxTΣ−1xxTΣ−1xx^T\Sigma^{-1}xxxx Duallik: yana pozitif tanımlı, böyledir onlar nokta ürün normlardır …


3
Kütle dönüşümlü cevaplı doğrusal model ve kütük bağlantılı genelleştirilmiş doğrusal model
In Bu yazıda başlıklı "Genelleştirilmiş Lineer Modeller UYGULAMALI İÇİN TIBBİ BİLGİ ARASINDA SEÇİMİ" yazarlar yazın: Genelleştirilmiş bir doğrusal modelde, ortalama, yanıtın kendisini dönüştürmek yerine, bağlantı işlevi tarafından dönüştürülür. İki dönüşüm yöntemi oldukça farklı sonuçlara yol açabilir; örneğin, log-dönüştürülmüş tepkilerin ortalaması, ortalama cevabın logaritması ile aynı değildir . Genel olarak, birincisi …

7
İki sıra değişken arasındaki ilişkinin grafiği
İki sıra değişken arasındaki ilişkiyi göstermek için uygun bir grafik nedir? Aklıma gelen birkaç seçenek: Birbirini gizleyen noktaları durdurmak için rastgele titreşim eklenmiş dağılım grafiği. Görünüşe göre standart bir grafik - Minitab buna "bireysel değerler grafiği" diyor. Benim düşünceme göre, sanki veriler bir aralık ölçeğindeymiş gibi sıradan seviyeler arasında bir …

3
Koşullu Gauss dağılımlarının ardındaki sezgi nedir?
Diyelim ki . Daha sonra, normalde ortalama olarak dağıtıldığı çok değişkenli olduğu göz önüne alındığında , koşullu dağılımı:X∼N2(μ,Σ)X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma})X1X1X_1X2=x2X2=x2X_2 = x_2 E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) ve varyans:Var[P(X1|X2=x2)]=σ11−σ212σ22Var[P(X1|X2=x2)]=σ11−σ122σ22{\rm Var}[P(X_1 | X_2 = x_2)] = \sigma_{11}-\frac{\sigma_{12}^{2}}{\sigma_{22}} Daha fazla bilgiye sahip olduğumuz için varyansın azalacağı mantıklı. Fakat …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.