İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

2
İkili ve sürekli değişkenleri kümelemede birlikte nasıl kullanırsınız?
K-araçlarında ikili değişkenleri (0 ve 1 değerleri) kullanmam gerekiyor. Ancak k-aracı sadece sürekli değişkenlerle çalışır. Bazı insanların hala bu ikili değişkenleri k-araçlarında k-araçlarının sadece sürekli değişkenler için tasarlandığı gerçeğini göz ardı ederek kullandığını biliyorum. Bu benim için kabul edilemez. Sorular: Öyleyse, k-means / hiyerarşik kümelemede ikili değişkenleri kullanmanın istatistiksel / …

5
Nadir olaylar lojistik regresyon ile başa çıkmak için strateji
Sonlu bir popülasyondaki nadir olayları incelemek istiyorum. Hangi stratejinin en uygun olduğu konusunda emin olamadığım için, bu konuyla ilgili ipuçlarını ve referansları takdir ediyorum, ancak bunun büyük ölçüde kapsandığının farkındayım. Sadece nereden başlayacağımı bilemiyorum. Benim sorunum siyasal bilimlerden biri ve ben 515,843 kayıttan oluşan sınırlı bir nüfusa sahibim. Bunlar 513,334 …

7
Naive Bayes'te test setinde bilinmeyen kelimeler varken neden Laplace yumuşatma ile uğraşıyorsunuz?
Bugün Naive Bayes Sınıflandırması'nı okuyordum. Parametre Tahmini başlığı altında, 1 yumuşatma ile birlikte okudum : yapalımccc (örneğin, pozitif veya negatif olarak) bir sınıfını ifade ve izin www bir belirteç ya da kelime bakın. İçin maksimum olabilirlik tahmin P(w|c)P(w|c)P(w|c) olduğucount(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in …

4
Standart sapmaları kullanarak aykırı değerlerin algılanması
Buradaki sorumu takiben aykırı noktaları saptamak için standart sapmanın kullanımına karşı veya bunun karşısında güçlü görüşler olup olmadığını merak ediyorum (örneğin, 2 standart sapmadan daha fazlası olan herhangi bir veri noktası bir aykırıdır). Bunun çalışmanın bağlamına bağlı olduğunu biliyorum, örneğin, 48 kg veri noktası, bebeklerin kilolarının incelenmesinde kesinlikle bir aykırı …
27 outliers 

1
Benzerlik matrisini (öklid) uzaklık matrisine dönüştürme
Rastgele orman algoritmasında, Breiman (yazar) benzerlik matrisini şu şekilde oluşturur: Tüm öğrenim örneklerini ormandaki her ağaçtan aşağıya gönderin Eğer iki örnek aynı yaprakta topraklanırsa, benzerlik matrisindeki karşılık gelen eleman 1 ile artarsa Ağaç sayısını matrisle normalize et Diyor: N ve k vakaları arasındaki yakınlıklar bir matris oluşturur {prox (n, k)}. …

3
İki rasgele birim vektörün skaler ürünlerinin boyutunda dağılımı
Eğer ve iki bağımsız rasgele birim vektörlerdir kendi sayısal ürün (nokta ürün) dağılımı ne (homojen bir birim küre üzerinde dağıtılmaktadır), ?y Ar D x ⋅ yxx\mathbf{x}yy\mathbf{y}RDRD\mathbb{R}^Dx⋅yx⋅y\mathbf x \cdot \mathbf y Gibi tahmin hızlı bir şekilde dağılımı büyür (?), Sıfır ortalama ve daha yüksek boyutlarda azalan varyans normal olur ancak için …

3
Beyazlatma her zaman iyi midir?
Makine öğrenme algoritmaları için ortak bir ön işleme adımı verilerin beyazlatılmasıdır. Verileri birbirinden ayırdığı için modellemeyi basitleştirdiği için beyazlatma yapmak her zaman iyidir. Beyazlatma ne zaman önerilmemektedir? Not: Verilerin ilişkisizleştirilmesine atıfta bulunuyorum.

2
K-kat çapraz doğrulamada varyans tahminleri
K-katlama çapraz doğrulama, verilen bir sınıflandırıcının genelleme kapasitesini tahmin etmek için kullanılabilir. Ayrıca varyansı hakkında daha iyi bir tahminde bulunmak için tüm doğrulama işlemlerinden havuzlanmış bir varyansı hesaplayabilir miyim? Değilse neden? Çapraz doğrulama işlemlerinde havuzlanmış standart sapmayı kullanan kağıtlar buldum . Açıkça , validasyon varyansı için evrensel bir tahmin edici …

1
Genelleştirilmiş tahmin denklemleriyle GLMM arasındaki fark nedir?
Bir logit bağlantısı kullanarak 3 seviyeli dengesiz verilerde GEE kullanıyorum. Bu, karışık efektli (GLMM) ve logit linkli bir GLM'den ne kadar farklıdır (çizebileceğim sonuçlar ve katsayıların anlamı açısından) açısından? Daha fazla ayrıntı: Gözlemler tek bernoulli denemeleridir. Sınıflar ve okullar halinde gruplandırılmıştır. R. kullanarak NA'ların Casewise ihmali. 6 öngörücüleri de etkileşim …




2
Varyans ve ortalama kare hatası arasındaki fark nedir?
Bunun daha önce sorulmadığına şaşırdım, ancak soruyu stats.stackexchange'te bulamıyorum. Normalde dağıtılmış bir örneğin varyansını hesaplamak için kullanılan formül: Σ ( X- X¯)2n - 1Σ(X-X¯)2n-1\frac{\sum(X - \bar{X}) ^2}{n-1} Basit bir doğrusal regresyonda gözlemlerin ortalama kare hatasını hesaplayan formül: ∑ ( yben- y^ben)2n - 2Σ(yben-y^ben)2n-2\frac{\sum(y_i - \hat{y}_i) ^2}{n-2} Bu iki formül arasındaki …
27 variance  error 



Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.