İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

1
Sonlu düzeltme faktörünün açıklaması
Sonlu bir popülasyondan örnekleme yapıldığında ve örneklem büyüklüğümüz popülasyonun% 5'inden fazla olduğunda, bu formülü kullanarak örneğin ortalama ve standart hatasını düzeltmemiz gerektiğini anlıyorum: FPC=N−nN−1−−−−√FPC=N−nN−1\hspace{10mm} FPC=\sqrt{\frac{N-n}{N-1}} Burada popülasyon boyutu ve olan n,NNNnnn örnek boyutudur. Bu formül hakkında 3 sorum var: Eşik neden% 5 olarak ayarlandı? Formül nasıl elde edildi? Bu formüle …



3
Wasserstein metriğinin Kullback-Leibler sapmalarına göre avantajları nelerdir?
Wasserstein metriği ve Kullback-Leibler sapması arasındaki pratik fark nedir ? Wasserstein metriği, ayrıca Dünya'ya taşınanların mesafesi olarak da adlandırılır . Wikipedia'dan: Wasserstein (veya Vaserstein) metriği, belirli bir metrik uzay M üzerindeki olasılık dağılımları arasında tanımlanan bir mesafe fonksiyonudur. ve Kullback - Leibler ayrışması, bir olasılık dağılımının ikinci beklenen olasılık dağılımından …

2
Kuantil regresyon “nasıl çalışır”?
Kuantil regresyonun sezgisel ve erişilebilir bir açıklamasını almayı umuyorum. Diyelim ki basit bir sonuç veri kümesine YYYve öngörücülerine .X1, X2X1,X2X_1, X_2 Örneğin, .25, .5, bir regresyon çalıştırırsam ve .β0 , .25, β1 , .25. . . β2 , .75β0,0,25,β1,0,25...β2,.75\beta_{0,.25},\beta_{1,.25}...\beta_{2,.75} İstiyorsunuz değerleri sadece sipariş tarafından bulunan değerleri ve belirli bir dağılım …

1
Lme'de çoklu (ayrı) rastgele efektler belirtme [kapalı]
Kapalı. Bu soru konu dışı . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Sorunuzu güncelleyin o yüzden -konu üzerinde Çapraz doğrulanmış için. 6 ay önce kapandı . R paketleri nlme ve lme4'te çalışıyordum, çoklu rastgele etkilere sahip modelleri belirlemeye çalışıyordum. Sadece nlme'nin varyansın heterojen yapısını belirleyebildiğini buldum …

3
Logit regresyonda etkileşimli terimleri kategorik değişkenlerle yorumlayabilme
Yanıt verenlerin dört gruba birine rastgele atandığı bir anket denemesine ait veriler var: > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 Üç tedavi grubu, uygulanan uyaranlara göre biraz değişmekle birlikte, benim ilgilendiğim temel ayrım kontrol ve tedavi grupları arasındadır. Ben de bir kukla değişken tanımladım Control: > summary(df$Control) …

5
Nedensel analize giriş
Nedensel analiz yapan iyi kitaplar nelerdir? Hem nedensel analizin prensiplerini hem de bu prensipleri uygulamak için ne kadar farklı istatistiksel metotların kullanılabileceğini gösteren bir giriş yapmayı düşünüyorum.

3
Çok etiketli verilerin doğruluğu için ölçü nedir?
KnownLabel Matrix ve PredictedLabel matrisinin verildiği bir senaryo düşünün. PredictedLabel matrisinin iyiliğini KnownLabel Matrisine göre ölçmek istiyorum. Ancak buradaki zorluk, BilinenLabel Matrix'in yalnızca bir tane 1 ve diğer birkaç satırda çok sayıda 1 olması (bu örnek çoklu etiketli). KnownLabel Matrix örneği aşağıda verilmiştir. A =[1 0 0 0 0 1 …

5
Her kümenin eşit sayıda puana sahip olduğu kümeleme prosedürü?
Bazı noktalar var içinde ve ben böylece noktaları küme istiyorum:X= { x1, . . . , xn}X={x1,...,xn}X=\{x_1,...,x_n\}R,pR,pR^p Her kümede eşit sayıda elemanı bulunur . (Bu kümeler böler sayısı varsayalım .)XXXnnn Her küme, bir anlamda, araçlarından gelen kümeler gibi, "uzamsal olarak yapışkandır" .kkk Bunlardan birini veya diğerini tatmin eden birçok kümelenme …


2
Gözlemler çoğaltıldığında neden bir numunenin varyansı değişir?
Varyansın bir yayılma ölçütü olduğu söylenir. Bu yüzden, varyansın, varyansa 3,5eşit olduğunu 3,3,5,5, sayılar eşit olarak yayıldığını düşündüm . Ama bu durum böyle değil, varyansı 3,5olduğu 2varyansı ise 3,3,5,5olduğunu 1 1/3. Bu beni şaşırtıyor, varyansın yayılmanın bir ölçüsü olduğu söyleniyor. Öyleyse, bu bağlamda yayılma ölçüsü ne anlama geliyor?
25 variance 

2
Vektör regresyon desteği sezgisel olarak nasıl çalışır?
Tüm SVM örnekleri sınıflandırma ile ilgilidir. Regresyon için bir SVM'nin (destek vektör regresör) regresyonda nasıl kullanılabileceğini anlamıyorum. Anladığım kadarıyla, bir SVM en uygun hiper düzlemi bulmak için iki sınıf arasındaki marjı maksimuma çıkarır. Bu nasıl bir regresyon probleminde işe yarar?
25 regression  svm 


4
Aşırı örnekleme, yetersiz örnekleme ve SMOTE hangi sorunu çözüyor?
Yakın geçmişteki iyi alınan söz konusu Tim sorar dengesiz veriler gerçekten Makine Öğrenmesi bir sorun olduğunda ? Sorunun önermesi, sınıf dengesini ve dengesiz sınıflar sorununu tartışan bir çok makine öğrenimi literatürü olmasıdır . Fikir, pozitif ve negatif sınıf arasında bir dengesizliğe sahip veri kümelerinin, bazı makine öğrenimi sınıflandırma (buraya olasılıklı …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.