İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

5
Random Forest algoritmasının optimize edilmiş uygulamaları
ALGLIB, Gofretler ve benzeri bazı R paketleri gibi birkaç rastgele ormanın uygulaması olduğunu fark ettim randomForest. Biri bana bu kütüphanelerin yüksek düzeyde optimize edilmiş olup olmadığını söyleyebilir mi? Temel olarak İstatiksel Öğrenim Öğeleri'nde ayrıntılandırıldığı gibi rastgele ormanlara eşdeğer mi veya çok fazla ilave numara eklenmiş mi? Umarım bu soru yeterince …


4
İstatistiksel modeller cheat sheet
Herhangi bir veya daha fazla bilgiyi listeleyen bir istatistiksel modelin "cheat sheet (s)" olup olmadığını merak ediyordum: model ne zaman kullanılır model kullanılmadığında gerekli ve isteğe bağlı girişler beklenen çıktılar Model farklı alanlarda (politika, biyo, mühendislik, imalat vb.) test edildi mi? uygulamada veya araştırmada kabul edilir mi? Beklenen değişim / …

5
Çoklu karşılaştırma neden bir problem?
Çoklu karşılaştırmalarla sorunun gerçekten ne olduğunu anlamakta zorlanıyorum . Basit bir benzetmeyle, birçok karar verecek olan kişinin birçok hata yapacağı söylenir. Bu yüzden, Bonferroni düzeltmesi gibi, bu kişinin mümkün olduğunca düşük herhangi bir hata yapma olasılığını arttırmak için çok muhafazakar bir önlem uygulanır. Fakat neden yanlış kararların yüzdesi yerine, aldığı …

8
Bir aykırı titiz tanımı?
İnsanlar genellikle istatistiklerle aykırı davranmaktan bahseder. Bu konuda beni rahatsız eden şey, söyleyebildiğim kadarıyla bir aykırı tanımının tamamen öznel olmasıdır. Örneğin, bazı rasgele değişkenlerin gerçek dağılımı çok kuyruklu veya iki modlu ise, aykırı değerlerin tespiti için herhangi bir standart görselleştirme veya özet istatistiği, örneklemek istediğiniz dağıtımın parçalarını hatalı şekilde kaldıracaktır. …

6
Modern istatistik / makine öğreniminde neden çoklu doğrusallık kontrol edilmiyor?
Geleneksel istatistiklerde, bir model oluştururken, varyans enflasyon faktörünün (VIF) tahminleri gibi yöntemleri kullanarak çok doğrusallığı kontrol ediyoruz, ancak makine öğreniminde, bunun yerine özellik seçimi için düzenlileştirme kullanıyoruz ve özelliklerin birbiriyle ilişkili olup olmadığını kontrol etmiyoruz. hiç. Neden bunu yapıyoruz?

4
GLM aşırı dağılmasının anlamlı olup olmadığını belirlemek için bir test var mı?
R'de Poisson GLM'leri oluşturuyorum. Dağılmayı kontrol etmek için, artık sapmaların sağladığı serbestlik derecelerine oranına bakıyorum summary(model.name). Bu oranın "önemli" olarak kabul edilmesi için bir kesme değeri veya testi var mı? > 1 olması durumunda verilerin aşırı dağıtıldığını biliyorum, ancak 1'e nispeten daha yakın oranlara sahipsem [örneğin, bir oran 1,7 (artık …


6
R çiziminde üst üste binen etiketleri nasıl önleyebilirim? [kapalı]
R'de oldukça basit bir scatterplot etiketlemeye çalışıyorum. Kullandığım şey: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) Sonuç, gördüğünüz gibi vasattır (büyütmek için tıklayın): textxyFonksiyonu kullanarak bunu telafi etmeye çalıştım , ama daha iyi değil . Görüntünün kendisini büyütmek yoğun kümeler için işe yaramaz. Bunu telafi etmenin ve R'nin çakışmayan etiketleri …

4
Çıkış katmanı için hangi aktivasyon fonksiyonu?
Gizli katman için aktivasyon fonksiyonlarının seçimi oldukça açıkken (çoğunlukla sigmoid veya tanh), çıkış katmanının aktivasyon fonksiyonuna nasıl karar vereceğimi merak ediyorum. Yaygın seçimler doğrusal fonksiyonlar, sigmoid fonksiyonlar ve softmax fonksiyonlardır. Ancak hangisini ne zaman kullanmalıyım?

3
İki farklı regresyondan katsayıların eşitlik testi
Bu temel bir sorun gibi gözüküyor, ancak fark ettim ki aslında iki farklı regresyondan katsayıların eşitliğini nasıl test edeceğimi bilmiyorum. Birisi buna biraz ışık tutabilir mi? Daha resmi, aşağıdaki iki regresyon ran varsayalım: ve burada regresyon matrisinin belirtir ve regresyon katsayıların vektörüne . Not olduğunu ve potansiyel olarak çok vb …

5
Kümelemeden önce verileri ölçeklendirmek önemli mi?
Kümelemeden önce özelliklerde scale işlevini çalıştırmanız gerektiğini öneren bu öğreticiyi buldum (verileri z puanlarına dönüştürdüğüne inanıyorum). Bunun gerekli olup olmadığını merak ediyorum. Çoğunlukla soruyorum çünkü verileri ölçeklemediğimde güzel bir dirsek noktası var, ancak ölçeklendiğinde kayboluyor. :)


7
Yeni başlayanlar için sinir ağı referansları (ders kitapları, çevrimiçi kurslar)
Yapay Sinir Ağlarını öğrenmek istiyorum. Ben Hesaplamalı Dilbilimciyim. İstatistiksel makine öğrenmesi yaklaşımlarını biliyorum ve Python'da kodlayabilir. Kavramlarıyla başlamak ve Hesaplamalı Dilbilim perspektifinden faydalı olabilecek bir veya iki popüler modeli tanımak istiyorum. Başvuru için interneti taradım ve birkaç kitap ve materyal buldum. Ripley, Brian D. (1996) Örüntü Tanıma ve Yapay Sinir …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.