İstatistikler ve Büyük Veri

6

Sürekli ve kategorik değişkenlerin karışımını içeren veri setlerine ana bileşen analizi uygulanabilir mi?

Hem sürekli hem de kategorik verileri olan bir veri setine sahibim. PCA kullanarak analiz ediyorum ve kategorik değişkenleri analizin bir parçası olarak dahil etmenin uygun olup olmadığını merak ediyorum. Anladığım kadarıyla PCA sadece sürekli değişkenlere uygulanabilir. Bu doğru mu? Kategorik veriler için kullanılamazsa, analizleri için hangi alternatifler var?

147 categorical-data pca correspondence-analysis mixed-type-data

5

Sinir ağım öğrenemediğinde ne yapmalıyım?

Bir sinir ağı eğitimi alıyorum ama eğitim kaybı azalmıyor. Bunu nasıl düzeltebilirim? Fazla abartma ya da düzenli olma hakkında soru sormuyorum. Ağımın performansının eğitim setinde düzelmediği problemi nasıl çözeceğimi soruyorum . Bu soru kasıtlı olarak geneldir, böylece bir sinir ağını nasıl eğiteceğiniz hakkındaki diğer sorular, bunun bir kopyası olarak kapatılabilir; …

147 neural-networks deep-learning

7

Merkezi limit teoremi için ne sezgisel açıklama var?

Birkaç farklı bağlamda , benimsemek istediğimiz istatistiksel yöntemi haklı çıkarmak için merkezi limit teoremini çağırıyoruz (örneğin binom dağılımını normal bir dağılımla yaklaşık olarak tahmin et). Teorinin neden doğru olduğuna dair teknik detayları anlıyorum, ancak şimdi ortaya çıktı, merkezi limit teoreminin arkasındaki sezgiyi gerçekten anlamadım. Peki, merkezi limit teoreminin ardındaki sezgi …

144 intuition central-limit-theorem

25

SAS vs Ra, neden SAS özel şirketler tarafından tercih ediliyor?

R'yi öğrendim, ancak şirketler SAS deneyimiyle daha fazla ilgileniyorlar. SAS'ın R'ye göre avantajları nelerdir?

143 r sas

6

ReLU'nun derin sinir ağlarında sigmoid fonksiyon üzerindeki avantajları nelerdir?

Doğrusal olmama sanatının durumu, derin sinir ağında sigmoid işlevi yerine doğrultulan doğrusal birimler (ReLU) kullanmaktır. Avantajları nelerdir? ReLU kullanıldığında bir ağın eğitilmesinin daha hızlı olacağını ve biyolojik olarak daha ilham verici olduğunu biliyorum, diğer avantajları nelerdir? (Yani, sigmoid kullanmanın herhangi bir dezavantajı)?

141 machine-learning neural-networks deep-learning

5

Biri “diğer değişkenleri nasıl kontrol eder”?

İşte bu soruyu motive eden makale: Sabırsızlık bizi şişmanlatır mı? Bu makaleyi beğenmiştim ve söz konusu 2 değişken arasındaki gerçek ilişkiyi en iyi şekilde izole etmek için “diğer değişkenleri kontrol etme” (IQ, kariyer, gelir, yaş, vb.) Kavramını güzel bir şekilde gösteriyor. Tipik bir veri setindeki değişkenleri nasıl kontrol ettiğinizi bana …

141 regression causality confounding controlling-for-a-variable statistics-in-media

5

Çapraz doğrulama sonrasında tüm veri seti ile eğitim mi yapıyorsunuz?

Çapraz doğrulama işleminden sonra tam veri setiyle çalışmak her zaman iyi bir fikir midir? Başka bir yol tut, çok ile tren ok tüm benim veri kümesindeki örnekleri ve değil bu özel uydurma olmadığını kontrol edememek overfits ? Sorun hakkında bazı bilgiler: Diyelim ki parametreleştirilmiş bir model ailesi var . Ayrıca, …

139 machine-learning cross-validation model-selection

14

Amazon görüşme sorusu - 2. görüşme olasılığı

Bu soruyu Amazon ile yaptığım röportajda aldım: İlk görüşme alan tüm kişilerin% 50'si ikinci görüşme alır İkinci bir röportaj alan arkadaşlarınızın% 95'i iyi bir ilk röportaj yaptıklarını düşünüyor İkinci bir görüşme almayan arkadaşlarının% 75'i ilk görüşme yaptıklarını düşünüyor İyi bir ilk görüşme yaptığınızı düşünüyorsanız, ikinci bir görüşme alma olasılığınız nedir? …

139 probability conditional-probability

8

Facebook sona mı geliyor?

Son zamanlarda, bu makale çok dikkat çekti (örneğin, WSJ'den ). Temel olarak, yazarlar, Facebook'un 2017 yılına kadar üyelerinin% 80'ini kaybedeceği sonucuna varıyor. Taleplerini epidemiyolojide sıkça kullanılan bölümsel bir model olan SIR modelinin dışlanmasına dayandırırlar . Verileri Google’daki "Facebook" aramalarından çıkarıldı ve yazarlar sonuçlarını doğrulamak için Myspace'in ölümünü kullandı. Soru: Yazarlar …

138 hypothesis-testing correlation epidemiology social-network

4

K-kat çapraz onaylamada K seçimi

Bazı öğrenme algoritmalarının performansını değerlendirmek için birkaç kez -katlı çapraz doğrulama kullanıyorum , ancak değerini nasıl seçmem gerektiği konusunda hep şaşırdım .KKKKKK Sık sık değerini gördüm ve kullandım , ancak bu benim için tamamen keyfi görünüyor ve şimdi düşünmek yerine sadece alışkanlık kullanıyorum. Bana göre değerini arttırdıkça daha iyi bir …

136 machine-learning classification cross-validation

15

Standart sapma hesaplanırken

Eğer kare hatasının toplamı bölmek neden sınıfta bugün istendi yerine ilen - 1n-1n-1nnn , standart sapmasını hesaplamak. Sınıfta cevap vermeyeceğimi söyledim (tarafsız tahmin edicilere gitmek istemediğimden beri), ancak daha sonra merak ettim - bunun için sezgisel bir açıklaması var mı ?!

136 standard-error intuition teaching bessels-correction

7

Lineer çekirdeğe sahip SVM'lerde C'nin etkisi nedir?

Şu anda verilerimi sınıflandırmak için doğrusal bir çekirdeğe sahip bir SVM kullanıyorum. Eğitim setinde hata yoktur. parametresi için birkaç değer denedim ( ). Bu, test setindeki hatayı değiştirmedi.10 - 5 , … , 10 2CCC10- 5, … , 10210−5,…,10210^{-5}, \dots, 10^2 Şimdi merak: Bunun bir hata olduğunu yakut bağlamaları nedeniyle …

134 machine-learning svm libsvm

2

Yapay sinir ağlarında kullanılan maliyet fonksiyonlarının uygulamalarla birlikte listesi

Yapay sinir ağlarının performansını değerlendirmede kullanılan yaygın maliyet fonksiyonları nelerdir? ayrıntılar (bu sorunun geri kalanını atlamaktan çekinmeyin, burada niyetim, cevapların genel okuyucu için daha anlaşılır olmalarına yardımcı olmak için kullanabilecekleri gösterime açıklık getirmektir.) Uygulamada kullanıldıkları birkaç yolun yanı sıra, ortak maliyet fonksiyonlarının bir listesine sahip olmanın faydalı olacağını düşünüyorum. Bu …

133 machine-learning neural-networks

2

Hangi dağıtımın verilerime en uygun olduğunu nasıl belirleyebilirim?

Bir veri kümem var ve hangi dağılımın verilerime en uygun olduğunu bulmak istiyorum. fitdistr()Fonksiyonu varsayılan dağılımı tanımlamak için gerekli parametreleri tahmin etmek için kullandım (örneğin Weibull, Cauchy, Normal). Bu parametreleri kullanarak, örnek verilerimin varsayılan dağılımımla aynı dağılımdan olup olmadığını tahmin etmek için bir Kolmogorov-Smirnov Testi yapabilirim. Eğer p değeri> 0,05 …

133 r distributions goodness-of-fit kolmogorov-smirnov distribution-identification

5

Temel bileşen analizi ile çok boyutlu ölçeklendirme arasındaki fark nedir?

PCA ve klasik MDS arasındaki fark nedir? MDS'ye karşı nonmetrik MDS'ye ne dersiniz? Birini diğerinden tercih edeceğiniz bir zaman var mı? Yorumlar nasıl farklı?

133 pca multidimensional-scaling pcoa