İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

5
Cox regresyonda tahmin
Çok değişkenli Cox regresyon yapıyorum, önemli bağımsız değişkenlerim ve beta değerlerim var. Model verilerime çok iyi uyuyor. Şimdi, modelimi kullanmak ve yeni bir gözlemin hayatta kalmasını tahmin etmek istiyorum. Cox modeliyle bunun nasıl yapılacağı konusunda net değilim. Doğrusal veya lojistik bir regresyonda, kolay olacaktır, sadece yeni gözlemin değerlerini regresyona koyun …

3
Saf Bayesian sınıflandırıcıları neden bu kadar iyi performans gösteriyor?
Naive Bayes sınıflandırıcıları sınıflandırma problemleri için popüler bir seçimdir. Bunun da dahil birçok nedeni var: "Zeitgeist" - yaklaşık on yıl önce spam filtrelerinin başarısından sonra yaygın bir farkındalık Yazması kolay Sınıflandırıcı model kurmak hızlı Model, yeni bir eğitim verisi ile modeli yeniden oluşturmak zorunda kalmadan değiştirilebilir Ancak, bunlar 'naif' - …

2
Model tanımlanabilirliği nedir?
Tanımlanamayan bir modelle verilerin model parametrelerine birden fazla atama ile üretilebileceğini söyleyebileceğimi biliyorum. Cassella ve Berger 2. baskı, bölüm 11.2'deki örnekte olduğu gibi, bazen parametrelerin sınırlandırılmasının mümkün olduğunu biliyorum. Belirli bir model verildiğinde, tanımlanabilir olup olmadığını nasıl değerlendirebilirim?

9
Bu arsada
Aşağıdaki çizimde YYY ve XXX arasındaki ilişki nedir ? Benim görüşüme göre olumsuz doğrusal bir ilişki var, ama çok fazla aykırı olduğumuz için ilişki çok zayıf. Haklı mıyım Saçılma noktalarını nasıl açıklayabileceğimizi öğrenmek istiyorum.

6
Güvenilir bölgeler ile Bayesian hipotez testleri arasındaki bağlantı nedir?
Sık sık istatistiklerde, güven aralıkları ve testler arasında yakın bir bağlantı vardır. İlgili çıkarımda kullanarak μμ\mu içinde N ( μ , σ2)N(μ,σ2)\rm N(\mu,\sigma^2) bir örnek olarak dağılım, 1 - α1−α1-\alpha güven aralığı ,t-testitarafındanαanlamlılık düzeyindereddedilmeyenx¯± ta / 2( n - 1 ) ⋅ s / n--√x¯±tα/2(n−1)⋅s/n\bar{x}\pm t_{\alpha/2}(n-1)\cdot s/\sqrt{n} tümdeğerlerini içerir.μμ\mutttαα\alpha Sık …

7
Bir R veri kümesi (.rda dosyası) görmek için iyi bir tarayıcı / görüntüleyici var mı
Bir .rda dosyasına (R veri kümesi) göz atmak istiyorum. View(datasetname)Emri biliyorum . Mac için gelen varsayılan R.app, veriler için çok iyi bir tarayıcıya sahip değildir (X11'de bir pencere açar). Komutla açılan RStudio veri tarayıcısını seviyorum View. Ancak, yalnızca 1000 satır gösterir ve kalanı atlar. ( GÜNCELLEME: RStudio görüntüleyici artık tüm …
38 r 

8
Bağımsız bir değişkenin değişiklik puanları üzerindeki etkisini test ederken, bir temel ölçütü kontrol değişkeni olarak eklemek geçerli midir?
Bir OLS regresyonu çalıştırmaya çalışıyorum: DV: Bir yıl boyunca kilodaki değişim (başlangıç ​​ağırlığı - son ağırlık) IV: Egzersiz yapıp yapmadığın. Bununla birlikte, daha ağır olan kişilerin egzersiz birimi başına daha zayıf insanların, zayıf insanlardan daha fazla kilo vermesi makul görünmektedir. Böylece bir kontrol değişkeni eklemek istedim: CV: İlk başlangıç ​​ağırlığı. …

4
Normal rastgele değişkenler için yaklaşık sıra istatistikleri
Belirli rastgele dağılımların düzen istatistikleri için iyi bilinen formüller var mı? Özellikle normal rastgele değişkenin birinci ve son derece istatistikleri, ancak daha genel bir cevap da takdir edilecektir. Düzenleme: Açıklığa kavuşturmak için, tam integral ifadesini değil, açıkça veya daha az açıkça değerlendirilebilecek yaklaşık formülleri arıyorum. Örneğin, normal bir rv'nin birinci …

5
Zaman serilerinde R kümelenmesi
Zaman serisi verilerim var. Her seri aynı dönemi kapsar, ancak her zaman serisindeki gerçek tarihler tam olarak 'sıralanmayabilir'. Diğer bir deyişle, eğer Zaman dizisi bir 2D matriste okunacak olsaydı, şöyle görünürdü: date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01 120 29 N/A 42.5 3/1/01 110 N/A …

9
Bernoulli rasgele değişkenlerinin toplamını nasıl verimli bir şekilde modelleyebilirim?
Her biri farklı başarı olasılığına sahip (~ 15-40k bağımsız Bernoulli rasgele değişkenlerinin ( ) toplamı olan rastgele bir değişkeni ( ) . Resmen, burada ve \ Pr (X_i = 0) = 1-p_i .YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i Pr(Y&lt;=k)Pr(Y&lt;=k)\Pr(Y<=k) (burada kkk verilir) gibi soruları hızlıca cevaplamak istiyorum . Şu anda, bu tür soruları cevaplamak …

8
Etkili bir şekilde rasgele pozitif-yarı-sonlu korelasyon matrisleri nasıl üretilir?
Verimli bir şekilde pozitif-yarı-sonsuz (PSD) korelasyon matrisleri üretebilmek istiyorum. Oluşturulacak matrislerin boyutunu arttırdığım için yöntemim çarpıcı bir şekilde yavaşlıyor. Herhangi bir etkin çözüm önerebilir misiniz? Matlab'daki örneklerin farkındaysanız çok minnettar olurum. Bir PSD korelasyon matrisi oluştururken, üretilecek matrisleri tanımlamak için parametreleri nasıl seçersiniz? Ortalama bir korelasyon, korelasyonların standart sapması, özdeğerler?

3
Rastgele Orman ve Son Derece Randomize Ağaçlar Arasındaki Fark
Rastgele Orman ve Son derece Rastgele Ağaçların, Rastgele Ormandaki ağaçların parçalarının deterministik olduğu anlamında farklılık gösterdiğini, Aşırı Rastgele Ağaçlar durumunda ise rastgele olduklarını anladım (daha kesin olmak gerekirse, bir sonraki bölünme en iyi bölmedir). Mevcut ağaç için seçilen değişkenlerde rastgele tekdüze bölmeler arasında). Ancak bu farklı bölünmelerin çeşitli durumlarda etkisini …


3
PCA, boolean (binary) veri tipleri için çalışır mı?
Daha yüksek dereceli sistemlerin boyutsallığını azaltmak ve kovaryansın çoğunu tercihen 2 boyutlu veya 1 boyutlu bir alanda yakalamak istiyorum. Bunun ana bileşen analizi yoluyla yapılabileceğini biliyorum ve PCA'yı birçok senaryoda kullandım. Ancak, onu hiçbir zaman boolean veri türleriyle kullanmadım ve PCA'yı bu setle yapmanın anlamlı olup olmadığını merak ediyordum. Örneğin, …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.