İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

5
NaN ve NA arasındaki fark nedir?
R gibi bazı dillerin neden hem NA hem de NaN olduğunu bilmek istiyorum. Farklılıklar nelerdir veya aynı mıdır? NA olması gerçekten gerekli mi?
48 r 


17
En sevdiğiniz veri görselleştirme blogunuz nedir?
Veri görselleştirmesinde en iyi blog hangisidir? Bu soruyu bir topluluk wiki olarak yapıyorum çünkü oldukça özneldir. Lütfen her cevabı bir link ile sınırlandırın. Lütfen önerilen cevaplar için aşağıdaki kriterleri dikkate alın: [A] Bunun gibi sorulara kabul edilebilir cevaplar ... yeterli açıklamaları ve gerekçeli gerekçeleri sunması gerekir. Sadece bir köprü yapmaz. …



2
Gradyan Artırma Ağaçları (GBM) ve Adaboost arasındaki farkların sezgisel açıklamaları
GBM ile Adaboost arasındaki farkları anlamaya çalışıyorum. Bunlar şimdiye dek anladım: Hem önceki modelin hatalarından ders alan ve hem de modellerin ağırlıklı toplamını yapan yükseltme algoritmaları vardır. GBM ve Adaboost, kayıp fonksiyonları dışında oldukça benzerdir. Ancak yine de aralarındaki farklar hakkında bir fikir edinmek benim için zor. Birisi bana sezgisel …
48 boosting  gbm  adaboost 


4
R rasgele orman hesaplama zamanı
Ben kullanıyorum parti 10.000 satır ve 34 özelliklerle R paketi ve bazı faktör özellikleri 300'den fazla seviyeleri var. Hesaplama süresi çok uzun. (Şimdiye kadar 3 saat sürdü ve henüz bitmedi.) Hangi öğelerin rastgele bir ormanın hesaplama zamanı üzerinde büyük bir etkisi olduğunu bilmek istiyorum. Çok fazla seviyeye sahip faktörleri var …
48 r  random-forest 



7
Deneyimli bir geliştirici için istatistiklerle nereden başlamalı
2015 yılının ilk yarısında Makine Öğrenimi dersini yaptım (Andrew Ng, BÜYÜK kurs). Ve makine öğrenmenin temellerini öğrendi (doğrusal regresyon, lojistik regresyon, SVM, Nöron Ağları ...) Ayrıca 10 yıldır bir geliştiriciyim, bu nedenle yeni bir programlama dili öğrenmek sorun olmaz. Son zamanlarda, makine öğrenmesi algoritmalarını uygulamak için R öğrenmeye başladım. Ancak, …

1
Öngörü hedefi ise standartlaştırma / normalizasyon eğitimi ve test setine nasıl uygulanır?
Tüm verilerimi veya katlamalarımı (CV uygulanmışsa) aynı anda mı değiştirebilirim? Örneğin (allData - mean(allData)) / sd(allData) Tren seti ve test setini ayrı ayrı değiştirebilir miyim? Örneğin (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Yoksa tren takımını değiştirip test setinde hesaplamaları kullanabilir miyim? Örneğin (trainData - mean(trainData)) / …

11
Basit doğrusal regresyon, çizimler ve doğrusal cebir kullanılmadan yapılabilir mi?
Tamamen körüm ve bir programlama geçmişinden geliyorum. Yapmaya çalıştığım şey makine öğrenmeyi öğrenmek ve bunu yapmak için önce doğrusal regresyon hakkında bilgi edinmem gerekiyor. İnternette bu konuda bulabildiğim tüm açıklamalar ilk önce verileri gösteriyor. Grafiklere ve parsellere bağlı olmayan lineer regresyonun pratik bir açıklamasını arıyorum. İşte basit doğrusal regresyonun amacını …

5
Kullback-Leibler (KL) Ayrıntısı Sezgisi
KL diverjansının arkasındaki sezgiyi, bir model dağılım fonksiyonunun verinin teorik / doğru dağılımından ne kadar farklı olduğunu öğrendim. Okuyorum kaynak bu iki dağılım arasındaki 'mesafeye' sezgisel anlayış yararlıdır, ancak iki dağılımlar için çünkü tam anlamıyla alınması gerektiğini söylemeye devam ediyor ve , KL Iraksama içinde simetrik değildir ve .PPPQQQPPPQQQ Son …

4
Denetimli Makine Öğreniminde Sınıf Dengesizliği
Bu genel olarak bir sorudur, herhangi bir yönteme veya veri kümesine özgü değildir. Veri setinde 0 sayısının% 90 civarında, 1 sayısının% 10 civarında olduğu Denetimli Makine öğreniminde sınıf dengesizliği problemiyle nasıl başa çıkacağız. Sınıflandırıcıyı nasıl optimum şekilde eğitiyoruz? İzlediğim yollardan biri, veri setini dengelemek ve ardından sınıflandırıcıyı eğitmek ve bunu …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.