İstatistikler ve Büyük Veri

1

Sonlu bir popülasyondan örnekleme yapıldığında ve örneklem büyüklüğümüz popülasyonun% 5'inden fazla olduğunda, bu formülü kullanarak örneğin ortalama ve standart hatasını düzeltmemiz gerektiğini anlıyorum: FPC=N−nN−1−−−−√FPC=N−nN−1\hspace{10mm} FPC=\sqrt{\frac{N-n}{N-1}} Burada popülasyon boyutu ve olan n,NNNnnn örnek boyutudur. Bu formül hakkında 3 sorum var: Eşik neden% 5 olarak ayarlandı? Formül nasıl elde edildi? Bu formüle …

25 sampling finite-population

4

Etkileşim, regresyondaki doğrudan etkilerimi ortadan kaldırırsa ne olur?

Bir regresyonda, etkileşim terimi, her iki ilişkili doğrudan etkiyi de ortadan kaldırır. Etkileşimi düşürür mü yoksa sonucu bildirir miyim? Etkileşim, orijinal hipotezin bir parçası değildi.

25 regression interaction

6

Zipf yasası katsayısı bir dizi üst frekanstan nasıl hesaplanır?

Birkaç sorgu sıklığım var ve Zipf yasasının katsayısını tahmin etmem gerekiyor. Bunlar en üst frekanslar: 26486 12053 5052 3033 2536 2391 1444 1220 1152 1039

25 distributions estimation pareto-distribution zipf

3

Wasserstein metriğinin Kullback-Leibler sapmalarına göre avantajları nelerdir?

Wasserstein metriği ve Kullback-Leibler sapması arasındaki pratik fark nedir ? Wasserstein metriği, ayrıca Dünya'ya taşınanların mesafesi olarak da adlandırılır . Wikipedia'dan: Wasserstein (veya Vaserstein) metriği, belirli bir metrik uzay M üzerindeki olasılık dağılımları arasında tanımlanan bir mesafe fonksiyonudur. ve Kullback - Leibler ayrışması, bir olasılık dağılımının ikinci beklenen olasılık dağılımından …

25 distributions kullback-leibler metric wasserstein

2

Kuantil regresyon “nasıl çalışır”?

Kuantil regresyonun sezgisel ve erişilebilir bir açıklamasını almayı umuyorum. Diyelim ki basit bir sonuç veri kümesine YYYve öngörücülerine .X1, X2X1,X2X_1, X_2 Örneğin, .25, .5, bir regresyon çalıştırırsam ve .β0 , .25, β1 , .25. . . β2 , .75β0,0,25,β1,0,25...β2,.75\beta_{0,.25},\beta_{1,.25}...\beta_{2,.75} İstiyorsunuz değerleri sadece sipariş tarafından bulunan değerleri ve belirli bir dağılım …

25 quantile-regression

1

Lme'de çoklu (ayrı) rastgele efektler belirtme [kapalı]

Kapalı. Bu soru konu dışı . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Sorunuzu güncelleyin o yüzden -konu üzerinde Çapraz doğrulanmış için. 6 ay önce kapandı . R paketleri nlme ve lme4'te çalışıyordum, çoklu rastgele etkilere sahip modelleri belirlemeye çalışıyordum. Sadece nlme'nin varyansın heterojen yapısını belirleyebildiğini buldum …

25 r random-effects-model lme4-nlme

3

Logit regresyonda etkileşimli terimleri kategorik değişkenlerle yorumlayabilme

Yanıt verenlerin dört gruba birine rastgele atandığı bir anket denemesine ait veriler var: > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 Üç tedavi grubu, uygulanan uyaranlara göre biraz değişmekle birlikte, benim ilgilendiğim temel ayrım kontrol ve tedavi grupları arasındadır. Ben de bir kukla değişken tanımladım Control: > summary(df$Control) …

25 r logistic categorical-data interaction interpretation

5

Nedensel analize giriş

Nedensel analiz yapan iyi kitaplar nelerdir? Hem nedensel analizin prensiplerini hem de bu prensipleri uygulamak için ne kadar farklı istatistiksel metotların kullanılabileceğini gösteren bir giriş yapmayı düşünüyorum.

25 references causality

3

Çok etiketli verilerin doğruluğu için ölçü nedir?

KnownLabel Matrix ve PredictedLabel matrisinin verildiği bir senaryo düşünün. PredictedLabel matrisinin iyiliğini KnownLabel Matrisine göre ölçmek istiyorum. Ancak buradaki zorluk, BilinenLabel Matrix'in yalnızca bir tane 1 ve diğer birkaç satırda çok sayıda 1 olması (bu örnek çoklu etiketli). KnownLabel Matrix örneği aşağıda verilmiştir. A =[1 0 0 0 0 1 …

25 machine-learning data-mining multilabel

5

Her kümenin eşit sayıda puana sahip olduğu kümeleme prosedürü?

Bazı noktalar var içinde ve ben böylece noktaları küme istiyorum:X= { x1, . . . , xn}X={x1,...,xn}X=\{x_1,...,x_n\}R,pR,pR^p Her kümede eşit sayıda elemanı bulunur . (Bu kümeler böler sayısı varsayalım .)XXXnnn Her küme, bir anlamda, araçlarından gelen kümeler gibi, "uzamsal olarak yapışkandır" .kkk Bunlardan birini veya diğerini tatmin eden birçok kümelenme …

25 machine-learning clustering k-means unsupervised-learning

4

Bağımsız değişken = Rasgele değişken?

Biraz karıştı ise bağımsız değişken bir istatistik modelinden (ayrıca bir belirleyici veya özellik olarak da adlandırılır), örneğin, lineer regresyon , bir rastgele değişken?XXXY=β0+β1XY=β0+β1XY=\beta_0+\beta_1 X

25 regression random-variable experiment-design predictor

2

Gözlemler çoğaltıldığında neden bir numunenin varyansı değişir?

Varyansın bir yayılma ölçütü olduğu söylenir. Bu yüzden, varyansın, varyansa 3,5eşit olduğunu 3,3,5,5, sayılar eşit olarak yayıldığını düşündüm . Ama bu durum böyle değil, varyansı 3,5olduğu 2varyansı ise 3,3,5,5olduğunu 1 1/3. Bu beni şaşırtıyor, varyansın yayılmanın bir ölçüsü olduğu söyleniyor. Öyleyse, bu bağlamda yayılma ölçüsü ne anlama geliyor?

25 variance

2

Vektör regresyon desteği sezgisel olarak nasıl çalışır?

Tüm SVM örnekleri sınıflandırma ile ilgilidir. Regresyon için bir SVM'nin (destek vektör regresör) regresyonda nasıl kullanılabileceğini anlamıyorum. Anladığım kadarıyla, bir SVM en uygun hiper düzlemi bulmak için iki sınıf arasındaki marjı maksimuma çıkarır. Bu nasıl bir regresyon probleminde işe yarar?

25 regression svm

2

10-kat Çapraz doğrulama vs çıkış bitti çapraz doğrulama

İç içe çapraz doğrulama yapıyorum. Dışarıda bırakma çapraz doğrulama işleminin önyargılı olabileceğini okudum (nedenini hatırlamıyorum). Dışarıda bırakma çapraz doğrulama için daha uzun çalışma süresi dışında 10 kat çapraz doğrulama veya bir kez dışarıda bırakılma çapraz doğrulama kullanılması daha mı iyidir?

25 machine-learning cross-validation

4

Aşırı örnekleme, yetersiz örnekleme ve SMOTE hangi sorunu çözüyor?

Yakın geçmişteki iyi alınan söz konusu Tim sorar dengesiz veriler gerçekten Makine Öğrenmesi bir sorun olduğunda ? Sorunun önermesi, sınıf dengesini ve dengesiz sınıflar sorununu tartışan bir çok makine öğrenimi literatürü olmasıdır . Fikir, pozitif ve negatif sınıf arasında bir dengesizliğe sahip veri kümelerinin, bazı makine öğrenimi sınıflandırma (buraya olasılıklı …

25 machine-learning classification predictive-models unbalanced-classes