İstatistikler ve Büyük Veri

4

Histograma dayalı verilerin yaklaşık dağılımını değerlendirme

Verilerimin histograma dayalı olarak üstel olup olmadığını görmek istediğimi varsayalım (yani sağa çarpık). Verileri nasıl gruplandırdığım veya böldiğime bağlı olarak, çok farklı histogramlar elde edebilirim. Histogramlardan oluşan bir set verinin üstel olduğu görülüyor. Başka bir set, verilerin üssel olmadığını gösterir. Histogramlardan iyi tanımlanmış dağılımları nasıl tanımlayabilirim?

111 distributions data-visualization histogram binning

6

PCA yapmadan önce yüksek oranda ilişkili değişkenleri kaldırmak gerekir mi?

PCA yapmadan önce diğer değişkenlerle yüksek korelasyon nedeniyle yazarın birkaç değişkeni attığı bir makale okuyorum. Toplam değişken sayısı yaklaşık 20'dir. Bu herhangi bir fayda sağlıyor mu? PCA bunu otomatik olarak halletmesi gerektiği için bana yük gibi geliyor.

111 correlation pca

2

Gradyan Artırıcı Ağaç vs Rastgele Orman

Friedman'ın önerdiği şekilde yükselen gradyan ağacı karar ağaçları temel öğrenenler olarak kullanır. Temel karar ağacını olabildiğince karmaşık (tamamen büyümüş) veya daha mı basit hale getirmemiz gerektiğini merak ediyorum. Seçim için bir açıklama var mı? Rastgele Orman, karar ağacı olarak temel öğrenenler olarak kullanılan başka bir topluluk yöntemidir. Anlayışıma dayanarak, genellikle …

110 machine-learning random-forest cart boosting ensemble

3

Kalanlar normal dağılmış fakat y değilse?

Garip bir sorum var. Basit bir doğrusal modelle analiz edeceğiniz bağımlı değişkenin çarpık kaldığı küçük bir örneğiniz olduğunu varsayalım. Böylece farz bu normalde dağıtılmış olmasına neden olur, çünkü normalde, dağıtılan değildir . Ancak QQ-Normal grafiğini hesapladığınızda, artıkların normal dağıldığına dair kanıtlar vardır. Böylece, herkes, olmamasına rağmen, hata teriminin normal şekilde …

110 regression residuals error normality-assumption

8

Yüz görüntülerinin veritabanında belirli bir yüzü algılama

Twitter kullanıcılarının yüzlerini içeren küçük bir proje üzerinde kendi profil resimlerim üzerinde çalışıyorum. Karşılaştığım bir sorun, net portre fotoğrafları olan görüntüleri hariç tuttuktan sonra, küçük ama önemli bir twitter kullanıcısının yüzdesi Justin Bieber resmini profil resmi olarak kullanıyor. Bunları filtrelemek için, programlı olarak bir fotoğrafın Justin Bieber'ın olup olmadığını nasıl …

110 machine-learning clustering image-processing

6

Korelasyon ve kovaryans arasındaki farkı nasıl açıklarsınız?

Bu soruyu takiben kovaryansı yalnızca ortalamayı anlayan birine nasıl açıklarsınız? kovaryansı meseleye açıklamak konusunu ele alan aklımda da benzer bir soru ortaya çıktı. Bir istatistik kofitine kovaryans ve korelasyon arasındaki farkı nasıl açıklar ? Her ikisinin de, diğer bir değişkene bağlı bir değişkendeki değişimi ifade ettiği görülüyor. Belirtilen soruya benzer …

109 correlation covariance

10

Cauchy dağılımının neden bir anlamı yok?

Dağılım yoğunluğu işlevinden, aşağıdaki grafikte gösterildiği gibi Cauchy dağılımı için bir ortalama (= 0) tanımlayabiliriz. Ama neden Cauchy dağılımının bir anlamı olmadığını söylüyoruz?

109 distributions mathematical-statistics mean pdf cauchy

15

ABD Seçim sonuçları 2016: Tahmin modellerinde neler ters gitti?

İlk önce Brexit , şimdi ABD seçimi. Pek çok model tahmini geniş bir aralıkta kesildi ve burada öğrenilecek dersler var mı? Dün saat 16.00 PST gibi geç saatlerde, bahis piyasaları hala Hillary 4’e 1’i tercih ediyordu. Bahse girerim, bahis piyasalarında, hat üzerinde gerçek parayla, mevcut tüm tahmin modellerinin bir topluluğu …

108 predictive-models ensemble confounding

5

Bir Destek Vektör Makinesi (SVM) nasıl çalışır?

Bir Destek Vektörü Makinesi (SVM) nasıl çalışır ve onu Lineer Algılayıcı , Lineer Ayrımcı Analizi veya Lojistik Regresyon gibi diğer doğrusal sınıflandırıcılardan ayıran nedir? * (* Algoritma, optimizasyon stratejileri, genelleme yetenekleri ve çalışma zamanı karmaşıklığı için altta yatan motivasyonları düşünüyorum. )

108 machine-learning classification svm statistical-learning

4

Önyükleme işleminde .632+ kuralı nedir?

Burada @gung, .632+ kuralına referansta bulunur. Hızlı bir Google araması, bu kuralın ne anlama geldiği ve ne amaçla kullanıldığı konusunda anlaşılması kolay bir cevap vermez. Birisi lütfen .632+ kuralını açıklar mı?

107 bootstrap

6

Bir veri matrisi için sezgisel bir yorumu var mı ?

Verilen bir veri matrisi (sütunlardaki değişkenler ve satırlardaki veri noktaları ile), istatistiklerde önemli bir rol oynar gibi görünmektedir . Örneğin, sıradan en küçük karelerin analitik çözümünün önemli bir parçasıdır. Veya, PCA için özvektörleri, verilerin temel bileşenleridir.A , T birAAAATAATAA^TA nasıl hesaplanacağını anlıyorum , ancak bu matrisin neyi temsil ettiğinin sezgisel …

107 matrix covariance-matrix correlation-matrix

5

Büyük ölçekli istatistiksel analizler yapmak için hangi beceriler gereklidir?

Birçok istatistiksel iş büyük ölçekli verilerle tecrübe ister. Büyük veri setleriyle çalışmak için ihtiyaç duyacağınız istatistiksel ve hesaplamalı beceriler nelerdir? Örneğin, 10 milyon örnekle veri seti verilen regresyon modellerini oluşturmaya ne dersiniz?

107 regression machine-learning multivariate-analysis large-data

21

Gerçek dünyaya “abartılı” bir örnek nedir?

"Overfitting" in ne anlama geldiğini anlıyorum ama overfitting için geçerli olan gerçek dünyadan bir örnek ile nasıl karşılaşacağım konusunda yardıma ihtiyacım var.

107 overfitting

7

Sınıflandırma modellerini değerlendirmek için doğruluk neden en iyi önlem değildir?

Bu, dolaylı olarak burada defalarca sorulan genel bir sorudur, ancak tek bir yetkili cevaptan yoksundur. Referans için bu konuda ayrıntılı bir cevap almak çok iyi olurdu. Tüm sınıflandırmalar arasında doğru sınıflandırmaların oranı olan doğruluk , çok basit ve “sezgisel” bir önlemdir, ancak dengesiz veriler için zayıf bir ölçü olabilir . …

107 machine-learning classification accuracy model-evaluation scoring-rules

6

Bir sinir ağında 1x1 evrişim ne demektir?

Şu anda Udacity Deep Learning Tutorial'ı yapıyorum. 3. Derste, 1x1 evrişimi hakkında konuşurlar. Bu 1x1 evrişim Google Başlangıç Modülünde kullanılmaktadır. 1x1 evrişimin ne olduğunu anlamada sorun yaşıyorum. Bu yazıyı Yann Lecun tarafından da gördüm . Biri bana bunu nazikçe açıklayabilir mi?

106 neural-networks deep-learning convolution conv-neural-network