İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

4
Histograma dayalı verilerin yaklaşık dağılımını değerlendirme
Verilerimin histograma dayalı olarak üstel olup olmadığını görmek istediğimi varsayalım (yani sağa çarpık). Verileri nasıl gruplandırdığım veya böldiğime bağlı olarak, çok farklı histogramlar elde edebilirim. Histogramlardan oluşan bir set verinin üstel olduğu görülüyor. Başka bir set, verilerin üssel olmadığını gösterir. Histogramlardan iyi tanımlanmış dağılımları nasıl tanımlayabilirim?


2
Gradyan Artırıcı Ağaç vs Rastgele Orman
Friedman'ın önerdiği şekilde yükselen gradyan ağacı karar ağaçları temel öğrenenler olarak kullanır. Temel karar ağacını olabildiğince karmaşık (tamamen büyümüş) veya daha mı basit hale getirmemiz gerektiğini merak ediyorum. Seçim için bir açıklama var mı? Rastgele Orman, karar ağacı olarak temel öğrenenler olarak kullanılan başka bir topluluk yöntemidir. Anlayışıma dayanarak, genellikle …

3
Kalanlar normal dağılmış fakat y değilse?
Garip bir sorum var. Basit bir doğrusal modelle analiz edeceğiniz bağımlı değişkenin çarpık kaldığı küçük bir örneğiniz olduğunu varsayalım. Böylece farz bu normalde dağıtılmış olmasına neden olur, çünkü normalde, dağıtılan değildir . Ancak QQ-Normal grafiğini hesapladığınızda, artıkların normal dağıldığına dair kanıtlar vardır. Böylece, herkes, olmamasına rağmen, hata teriminin normal şekilde …

8
Yüz görüntülerinin veritabanında belirli bir yüzü algılama
Twitter kullanıcılarının yüzlerini içeren küçük bir proje üzerinde kendi profil resimlerim üzerinde çalışıyorum. Karşılaştığım bir sorun, net portre fotoğrafları olan görüntüleri hariç tuttuktan sonra, küçük ama önemli bir twitter kullanıcısının yüzdesi Justin Bieber resmini profil resmi olarak kullanıyor. Bunları filtrelemek için, programlı olarak bir fotoğrafın Justin Bieber'ın olup olmadığını nasıl …

6
Korelasyon ve kovaryans arasındaki farkı nasıl açıklarsınız?
Bu soruyu takiben kovaryansı yalnızca ortalamayı anlayan birine nasıl açıklarsınız? kovaryansı meseleye açıklamak konusunu ele alan aklımda da benzer bir soru ortaya çıktı. Bir istatistik kofitine kovaryans ve korelasyon arasındaki farkı nasıl açıklar ? Her ikisinin de, diğer bir değişkene bağlı bir değişkendeki değişimi ifade ettiği görülüyor. Belirtilen soruya benzer …




4
Önyükleme işleminde .632+ kuralı nedir?
Burada @gung, .632+ kuralına referansta bulunur. Hızlı bir Google araması, bu kuralın ne anlama geldiği ve ne amaçla kullanıldığı konusunda anlaşılması kolay bir cevap vermez. Birisi lütfen .632+ kuralını açıklar mı?
107 bootstrap 

6
Bir veri matrisi için sezgisel bir yorumu var mı ?
Verilen bir veri matrisi (sütunlardaki değişkenler ve satırlardaki veri noktaları ile), istatistiklerde önemli bir rol oynar gibi görünmektedir . Örneğin, sıradan en küçük karelerin analitik çözümünün önemli bir parçasıdır. Veya, PCA için özvektörleri, verilerin temel bileşenleridir.A , T birAAAATAATAA^TA nasıl hesaplanacağını anlıyorum , ancak bu matrisin neyi temsil ettiğinin sezgisel …



7
Sınıflandırma modellerini değerlendirmek için doğruluk neden en iyi önlem değildir?
Bu, dolaylı olarak burada defalarca sorulan genel bir sorudur, ancak tek bir yetkili cevaptan yoksundur. Referans için bu konuda ayrıntılı bir cevap almak çok iyi olurdu. Tüm sınıflandırmalar arasında doğru sınıflandırmaların oranı olan doğruluk , çok basit ve “sezgisel” bir önlemdir, ancak dengesiz veriler için zayıf bir ölçü olabilir . …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.