İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

6
Sürekli ve kategorik değişkenlerin karışımını içeren veri setlerine ana bileşen analizi uygulanabilir mi?
Hem sürekli hem de kategorik verileri olan bir veri setine sahibim. PCA kullanarak analiz ediyorum ve kategorik değişkenleri analizin bir parçası olarak dahil etmenin uygun olup olmadığını merak ediyorum. Anladığım kadarıyla PCA sadece sürekli değişkenlere uygulanabilir. Bu doğru mu? Kategorik veriler için kullanılamazsa, analizleri için hangi alternatifler var?

5
Sinir ağım öğrenemediğinde ne yapmalıyım?
Bir sinir ağı eğitimi alıyorum ama eğitim kaybı azalmıyor. Bunu nasıl düzeltebilirim? Fazla abartma ya da düzenli olma hakkında soru sormuyorum. Ağımın performansının eğitim setinde düzelmediği problemi nasıl çözeceğimi soruyorum . Bu soru kasıtlı olarak geneldir, böylece bir sinir ağını nasıl eğiteceğiniz hakkındaki diğer sorular, bunun bir kopyası olarak kapatılabilir; …

7
Merkezi limit teoremi için ne sezgisel açıklama var?
Birkaç farklı bağlamda , benimsemek istediğimiz istatistiksel yöntemi haklı çıkarmak için merkezi limit teoremini çağırıyoruz (örneğin binom dağılımını normal bir dağılımla yaklaşık olarak tahmin et). Teorinin neden doğru olduğuna dair teknik detayları anlıyorum, ancak şimdi ortaya çıktı, merkezi limit teoreminin arkasındaki sezgiyi gerçekten anlamadım. Peki, merkezi limit teoreminin ardındaki sezgi …


6
ReLU'nun derin sinir ağlarında sigmoid fonksiyon üzerindeki avantajları nelerdir?
Doğrusal olmama sanatının durumu, derin sinir ağında sigmoid işlevi yerine doğrultulan doğrusal birimler (ReLU) kullanmaktır. Avantajları nelerdir? ReLU kullanıldığında bir ağın eğitilmesinin daha hızlı olacağını ve biyolojik olarak daha ilham verici olduğunu biliyorum, diğer avantajları nelerdir? (Yani, sigmoid kullanmanın herhangi bir dezavantajı)?

5
Biri “diğer değişkenleri nasıl kontrol eder”?
İşte bu soruyu motive eden makale: Sabırsızlık bizi şişmanlatır mı? Bu makaleyi beğenmiştim ve söz konusu 2 değişken arasındaki gerçek ilişkiyi en iyi şekilde izole etmek için “diğer değişkenleri kontrol etme” (IQ, kariyer, gelir, yaş, vb.) Kavramını güzel bir şekilde gösteriyor. Tipik bir veri setindeki değişkenleri nasıl kontrol ettiğinizi bana …


14
Amazon görüşme sorusu - 2. görüşme olasılığı
Bu soruyu Amazon ile yaptığım röportajda aldım: İlk görüşme alan tüm kişilerin% 50'si ikinci görüşme alır İkinci bir röportaj alan arkadaşlarınızın% 95'i iyi bir ilk röportaj yaptıklarını düşünüyor İkinci bir görüşme almayan arkadaşlarının% 75'i ilk görüşme yaptıklarını düşünüyor İyi bir ilk görüşme yaptığınızı düşünüyorsanız, ikinci bir görüşme alma olasılığınız nedir? …

8
Facebook sona mı geliyor?
Son zamanlarda, bu makale çok dikkat çekti (örneğin, WSJ'den ). Temel olarak, yazarlar, Facebook'un 2017 yılına kadar üyelerinin% 80'ini kaybedeceği sonucuna varıyor. Taleplerini epidemiyolojide sıkça kullanılan bölümsel bir model olan SIR modelinin dışlanmasına dayandırırlar . Verileri Google’daki "Facebook" aramalarından çıkarıldı ve yazarlar sonuçlarını doğrulamak için Myspace'in ölümünü kullandı. Soru: Yazarlar …

4
K-kat çapraz onaylamada K seçimi
Bazı öğrenme algoritmalarının performansını değerlendirmek için birkaç kez -katlı çapraz doğrulama kullanıyorum , ancak değerini nasıl seçmem gerektiği konusunda hep şaşırdım .KKKKKK Sık sık değerini gördüm ve kullandım , ancak bu benim için tamamen keyfi görünüyor ve şimdi düşünmek yerine sadece alışkanlık kullanıyorum. Bana göre değerini arttırdıkça daha iyi bir …

15
Standart sapma hesaplanırken
Eğer kare hatasının toplamı bölmek neden sınıfta bugün istendi yerine ilen - 1n-1n-1nnn , standart sapmasını hesaplamak. Sınıfta cevap vermeyeceğimi söyledim (tarafsız tahmin edicilere gitmek istemediğimden beri), ancak daha sonra merak ettim - bunun için sezgisel bir açıklaması var mı ?!

7
Lineer çekirdeğe sahip SVM'lerde C'nin etkisi nedir?
Şu anda verilerimi sınıflandırmak için doğrusal bir çekirdeğe sahip bir SVM kullanıyorum. Eğitim setinde hata yoktur. parametresi için birkaç değer denedim ( ). Bu, test setindeki hatayı değiştirmedi.10 - 5 , … , 10 2CCC10- 5, … , 10210−5,…,10210^{-5}, \dots, 10^2 Şimdi merak: Bunun bir hata olduğunu yakut bağlamaları nedeniyle …

2
Yapay sinir ağlarında kullanılan maliyet fonksiyonlarının uygulamalarla birlikte listesi
Yapay sinir ağlarının performansını değerlendirmede kullanılan yaygın maliyet fonksiyonları nelerdir? ayrıntılar (bu sorunun geri kalanını atlamaktan çekinmeyin, burada niyetim, cevapların genel okuyucu için daha anlaşılır olmalarına yardımcı olmak için kullanabilecekleri gösterime açıklık getirmektir.) Uygulamada kullanıldıkları birkaç yolun yanı sıra, ortak maliyet fonksiyonlarının bir listesine sahip olmanın faydalı olacağını düşünüyorum. Bu …

2
Hangi dağıtımın verilerime en uygun olduğunu nasıl belirleyebilirim?
Bir veri kümem var ve hangi dağılımın verilerime en uygun olduğunu bulmak istiyorum. fitdistr()Fonksiyonu varsayılan dağılımı tanımlamak için gerekli parametreleri tahmin etmek için kullandım (örneğin Weibull, Cauchy, Normal). Bu parametreleri kullanarak, örnek verilerimin varsayılan dağılımımla aynı dağılımdan olup olmadığını tahmin etmek için bir Kolmogorov-Smirnov Testi yapabilirim. Eğer p değeri> 0,05 …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.