İstatistikler ve Büyük Veri

5

Çok değişkenli Cox regresyon yapıyorum, önemli bağımsız değişkenlerim ve beta değerlerim var. Model verilerime çok iyi uyuyor. Şimdi, modelimi kullanmak ve yeni bir gözlemin hayatta kalmasını tahmin etmek istiyorum. Cox modeliyle bunun nasıl yapılacağı konusunda net değilim. Doğrusal veya lojistik bir regresyonda, kolay olacaktır, sadece yeni gözlemin değerlerini regresyona koyun …

38 regression survival prediction cox-model

3

Saf Bayesian sınıflandırıcıları neden bu kadar iyi performans gösteriyor?

Naive Bayes sınıflandırıcıları sınıflandırma problemleri için popüler bir seçimdir. Bunun da dahil birçok nedeni var: "Zeitgeist" - yaklaşık on yıl önce spam filtrelerinin başarısından sonra yaygın bir farkındalık Yazması kolay Sınıflandırıcı model kurmak hızlı Model, yeni bir eğitim verisi ile modeli yeniden oluşturmak zorunda kalmadan değiştirilebilir Ancak, bunlar 'naif' - …

38 classification naive-bayes

2

Model tanımlanabilirliği nedir?

Tanımlanamayan bir modelle verilerin model parametrelerine birden fazla atama ile üretilebileceğini söyleyebileceğimi biliyorum. Cassella ve Berger 2. baskı, bölüm 11.2'deki örnekte olduğu gibi, bazen parametrelerin sınırlandırılmasının mümkün olduğunu biliyorum. Belirli bir model verildiğinde, tanımlanabilir olup olmadığını nasıl değerlendirebilirim?

38 identifiability

9

Bu arsada

Aşağıdaki çizimde YYY ve XXX arasındaki ilişki nedir ? Benim görüşüme göre olumsuz doğrusal bir ilişki var, ama çok fazla aykırı olduğumuz için ilişki çok zayıf. Haklı mıyım Saçılma noktalarını nasıl açıklayabileceğimizi öğrenmek istiyorum.

38 self-study correlation scatterplot

6

Güvenilir bölgeler ile Bayesian hipotez testleri arasındaki bağlantı nedir?

Sık sık istatistiklerde, güven aralıkları ve testler arasında yakın bir bağlantı vardır. İlgili çıkarımda kullanarak μμ\mu içinde N ( μ , σ2)N(μ,σ2)\rm N(\mu,\sigma^2) bir örnek olarak dağılım, 1 - α1−α1-\alpha güven aralığı ,t-testitarafındanαanlamlılık düzeyindereddedilmeyenx¯± ta / 2( n - 1 ) ⋅ s / n--√x¯±tα/2(n−1)⋅s/n\bar{x}\pm t_{\alpha/2}(n-1)\cdot s/\sqrt{n} tümdeğerlerini içerir.μμ\mutttαα\alpha Sık …

38 hypothesis-testing bayesian confidence-interval frequentist credible-interval

7

Bir R veri kümesi (.rda dosyası) görmek için iyi bir tarayıcı / görüntüleyici var mı

Bir .rda dosyasına (R veri kümesi) göz atmak istiyorum. View(datasetname)Emri biliyorum . Mac için gelen varsayılan R.app, veriler için çok iyi bir tarayıcıya sahip değildir (X11'de bir pencere açar). Komutla açılan RStudio veri tarayıcısını seviyorum View. Ancak, yalnızca 1000 satır gösterir ve kalanı atlar. ( GÜNCELLEME: RStudio görüntüleyici artık tüm …

38 r

8

Bağımsız bir değişkenin değişiklik puanları üzerindeki etkisini test ederken, bir temel ölçütü kontrol değişkeni olarak eklemek geçerli midir?

Bir OLS regresyonu çalıştırmaya çalışıyorum: DV: Bir yıl boyunca kilodaki değişim (başlangıç ağırlığı - son ağırlık) IV: Egzersiz yapıp yapmadığın. Bununla birlikte, daha ağır olan kişilerin egzersiz birimi başına daha zayıf insanların, zayıf insanlardan daha fazla kilo vermesi makul görünmektedir. Böylece bir kontrol değişkeni eklemek istedim: CV: İlk başlangıç ağırlığı. …

38 regression repeated-measures least-squares change-scores

4

Normal rastgele değişkenler için yaklaşık sıra istatistikleri

Belirli rastgele dağılımların düzen istatistikleri için iyi bilinen formüller var mı? Özellikle normal rastgele değişkenin birinci ve son derece istatistikleri, ancak daha genel bir cevap da takdir edilecektir. Düzenleme: Açıklığa kavuşturmak için, tam integral ifadesini değil, açıkça veya daha az açıkça değerlendirilebilecek yaklaşık formülleri arıyorum. Örneğin, normal bir rv'nin birinci …

38 distributions normal-distribution approximation order-statistics

5

Zaman serilerinde R kümelenmesi

Zaman serisi verilerim var. Her seri aynı dönemi kapsar, ancak her zaman serisindeki gerçek tarihler tam olarak 'sıralanmayabilir'. Diğer bir deyişle, eğer Zaman dizisi bir 2D matriste okunacak olsaydı, şöyle görünürdü: date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01 120 29 N/A 42.5 3/1/01 110 N/A …

38 r time-series clustering cointegration

9

Bernoulli rasgele değişkenlerinin toplamını nasıl verimli bir şekilde modelleyebilirim?

Her biri farklı başarı olasılığına sahip (~ 15-40k bağımsız Bernoulli rasgele değişkenlerinin ( ) toplamı olan rastgele bir değişkeni ( ) . Resmen, burada ve \ Pr (X_i = 0) = 1-p_i .YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i Pr(Y<=k)Pr(Y<=k)\Pr(Y<=k) (burada kkk verilir) gibi soruları hızlıca cevaplamak istiyorum . Şu anda, bu tür soruları cevaplamak …

38 r distributions binomial random-variable poisson-binomial

8

Etkili bir şekilde rasgele pozitif-yarı-sonlu korelasyon matrisleri nasıl üretilir?

Verimli bir şekilde pozitif-yarı-sonsuz (PSD) korelasyon matrisleri üretebilmek istiyorum. Oluşturulacak matrislerin boyutunu arttırdığım için yöntemim çarpıcı bir şekilde yavaşlıyor. Herhangi bir etkin çözüm önerebilir misiniz? Matlab'daki örneklerin farkındaysanız çok minnettar olurum. Bir PSD korelasyon matrisi oluştururken, üretilecek matrisleri tanımlamak için parametreleri nasıl seçersiniz? Ortalama bir korelasyon, korelasyonların standart sapması, özdeğerler?

38 random-generation correlation-matrix

3

Rastgele Orman ve Son Derece Randomize Ağaçlar Arasındaki Fark

Rastgele Orman ve Son derece Rastgele Ağaçların, Rastgele Ormandaki ağaçların parçalarının deterministik olduğu anlamında farklılık gösterdiğini, Aşırı Rastgele Ağaçlar durumunda ise rastgele olduklarını anladım (daha kesin olmak gerekirse, bir sonraki bölünme en iyi bölmedir). Mevcut ağaç için seçilen değişkenlerde rastgele tekdüze bölmeler arasında). Ancak bu farklı bölünmelerin çeşitli durumlarda etkisini …

38 machine-learning correlation references random-forest

2

ImageNet: ilk 1 ve ilk 5 hata oranı nedir?

ImageNet sınıflandırma kâğıtlarında ilk 1 ve ilk 5 hata oranları, bazı çözümlerin başarısını ölçmek için önemli birimlerdir, ancak bu hata oranları nedir? In Deep Evrişimsel Sinir Ağları ile ImageNet Sınıflandırma Krizhevsky ark. Tek bir CNN (sayfa 7) temelli her bir çözümde ilk 5 hata oranına sahip değilken, 5 ve 7 …

38 classification neural-networks error measurement-error image-processing

3

PCA, boolean (binary) veri tipleri için çalışır mı?

Daha yüksek dereceli sistemlerin boyutsallığını azaltmak ve kovaryansın çoğunu tercihen 2 boyutlu veya 1 boyutlu bir alanda yakalamak istiyorum. Bunun ana bileşen analizi yoluyla yapılabileceğini biliyorum ve PCA'yı birçok senaryoda kullandım. Ancak, onu hiçbir zaman boolean veri türleriyle kullanmadım ve PCA'yı bu setle yapmanın anlamlı olup olmadığını merak ediyordum. Örneğin, …

38 pca data-visualization binary-data dimensionality-reduction correspondence-analysis

3

Saddlepoint yaklaşımı nasıl çalışır?

Nasıl yapar saddlepoint yaklaşım çalışır? Ne tür bir sorun için iyi? (Örnekleme yoluyla belirli bir örneği veya örneği kullanmaktan çekinmeyin) Herhangi bir dezavantaj, zorluk, dikkat edilmesi gerekenler veya takılmalar için tuzaklar var mı?

38 distributions mathematical-statistics mgf saddlepoint-approximation partial-moments