İstatistikler ve Büyük Veri

3

Öncelikle denetlenen çok değişkenli analiz tekniklerine başvurmak amacıyla çeşitli çapraz doğrulama yöntemlerini öğrenmeye çalışıyorum. Karşılaştığım iki K-kat ve Monte Carlo çapraz doğrulama teknikleri. K-fold'ın Monte Carlo'daki bir varyasyon olduğunu okudum ama Monte Carlo'nun tanımını neyin yaptığını tam olarak anladığımdan emin değilim. Birisi lütfen bu iki yöntem arasındaki farkı açıklayabilir mi?

29 cross-validation monte-carlo

4

Sonuçlar lm () den bir denkleme nasıl çevrilir?

lm()Bir değeri tahmin etmek için kullanabiliriz , ancak bazı durumlarda sonuç formülünün denklemine hala ihtiyacımız var. Örneğin, denklemi parsellere ekleyin.

29 r regression lm

2

Çekirdek yoğunluğu tahmin edicileri için bir bant genişliği seçme

Tek değişkenli çekirdek yoğunluk tahmin edicilerin (KDE) için, ben hesaplamak için Silverman kural kullanarak hhh : 0.9min(sd,IQR/1.34)×n−0.20.9min(sd,IQR/1.34)×n−0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} Çok değişkenli KDE (Normal bir çekirdek varsayarak) için standart kurallar nelerdir.

29 smoothing kernel-smoothing

3

R: Veri setinde NaN bulunmamasına rağmen “yabancı işlev çağrısı” na NaN / Inf atma Rastgele Orman [kapalı]

Bir veri kümesi üzerinde çapraz doğrulanmış rasgele bir orman çalıştırmak için şapka kullanıyorum. Y değişkeni bir faktördür. Veri setimde hiç NaN, Inf veya NA yok. Ancak rastgele orman çalıştırırken, alıyorum Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

4

Andrew Ng neden PCA yapmak için koordine matrisinin EIG'sini değil SVD'yi kullanmayı tercih ediyor?

Andrew Ng's Coursera dersinden ve diğer materyallerden PCA okuyorum. Stanford NLP dersinde cs224n'nin ilk ödevinde ve Andrew Ng'un ders videosunda kovaryans matrisinin özvektör ayrışması yerine tekil değer ayrıştırması yapıyorlar ve Ng, SVD'nin özerk kompozisyondan sayısal olarak daha kararlı olduğunu söylüyor. Anladığım kadarıyla PCA için, (m,n)boyutun kovaryans matrisinden değil, boyut veri …

29 pca linear-algebra svd eigenvalues numerics

4

Lojistik Regresyondan maliyet fonksiyonu nasıl türetilir?

Coursera'da Machine Learning Stanford kursunu yapıyorum. Lojistik Regresyon bölümünde, maliyet fonksiyonu şudur: Sonra burada türetilir: Maliyet fonksiyonunun türevini almaya çalıştım ama tamamen farklı bir şey aldım. Türev nasıl elde edilir? Aracı adımlar nelerdir?

29 regression logistic gradient-descent derivative

1

sklearn'in sınıflandırma raporundaki rakamlar ne anlama geliyor?

Ben sklearn 's sklearn.metrics.classification_report belgelerine çektiğim bir örnek aşağıda. Anlamadığım şey, sınıfın yordayıcı etiket olduğuna inandığım her sınıf için neden f1 puan, kesinlik ve hatırlama değerleri olduğudur? F1 skorunun modelin genel doğruluğunu söylediğini sanıyordum. Ayrıca, destek sütunu bize ne anlatıyor? Bununla ilgili hiçbir bilgi bulamadım. print(classification_report(y_true, y_pred, target_names=target_names)) precision recall …

29 machine-learning python scikit-learn precision-recall

2

Bir glm çalışırken "sistem hesaplama açısından tekil" hatası

Bir glm tahmini yürütmek için robustbase paketini kullanıyorum . Ancak bunu yaptığımda aşağıdaki hatayı alıyorum: Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 Bu ne anlama / anlama geliyor? Ve nasıl hata ayıklayabilirim? PS. Cevaplamak için herhangi bir şeye (formül / …

29 r generalized-linear-model robust

3

AUC neden daha doğru olan bir sınıflayıcı için daha doğru bir sınıflayıcıya göre daha yüksektir?

İki sınıflandırıcım var A: saf Bayesian ağı B: ağaç (tek başına bağlı) Bayesian ağı Doğruluk ve diğer önlemler bakımından A, B'den daha kötü performans gösterir. Ancak, ROC analizi yapmak için RR ROCR ve AUC paketlerini kullandığımda, A için AUC'nin B için AUC'den daha yüksek olduğu ortaya çıktı. olay? Gerçek pozitif …

29 machine-learning classification roc auc bayesian-network

4

Bir dağılımın düzensizliğini nasıl ölçer?

Çalıştığım bir deney için dağılımın tek biçimliliğini ölçmek için bir ölçüm bulmaya çalışıyorum. Çoğu durumda eşit olarak dağıtılması gereken rastgele bir değişkenim var ve değişkenin bazı sınırlar içinde eşit olarak dağıtılmadığı veri kümelerinin örneklerini tanımlayabiliyorum (ve derecesini ölçebiliyorum). Her biri, ölçtüğüm bir şeyin meydana gelme sıklığını temsil eden 10 ölçümden …

28 distributions variance random-variable uniform

2

Statistics.com yanlış cevabı yayınladı mı?

Statistics.com haftanın bir sorununu yayınladı: Konut sigortası dolandırıcılığı oranı% 10 (on iddiadan biri hileli). Bir danışman, talepleri gözden geçirmek ve sahtekarlık veya sahtekarlık olarak sınıflandırmak için bir makine öğrenme sistemi önermiştir. Sistem hileli taleplerin tespitinde% 90 etkilidir, ancak sahtekarlık taleplerinin doğru bir şekilde sınıflandırılmasında yalnızca% 80 etkilidir (yanlışlıkla beşte birini …

28 probability bayesian puzzle

2

SVM algoritmasının arkasındaki istatistiksel model nedir?

Modele dayalı bir yaklaşım kullanarak veriyle uğraşırken ilk adımın veri prosedürünü istatistiksel bir model olarak modellemek olduğunu öğrendim. Ardından bir sonraki adım bu istatistiksel modele dayanan verimli / hızlı çıkarım / öğrenme algoritması geliştirmektir. Bu yüzden hangi istatistiksel modelin destek vektör makinesi (SVM) algoritmasının arkasında olduğunu sormak istiyorum.

28 machine-learning svm modeling

3

Neden iki normal dağılım değişkeninin bir karışımı sadece ortalamaları standart standart sapmanın en az iki katı kadar farklı ise iki modludur?

İki normal dağılımın karışımı altında: https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions "İki normal dağılımın bir karışımını tahmin etmek için beş parametreye sahiptir: iki araç, iki değişken ve karışım parametresi. Eşit standart sapmalara sahip iki normal dağılımın bir karışımı, ortalamaları ortalama standart sapmanın en az iki katı farklı ise iki modludur. ." Bunun neden doğru olduğuna …

28 bimodal

2

“RNN herhangi bir algoritmaya yaklaşabilir” anlamına (ve kanıtına)

Son zamanlarda tekrarlayan bir sinir ağının herhangi bir algoritmaya yaklaşabileceğini okudum. Öyleyse sorum şu: bu tam olarak ne anlama geliyor ve bunun kanıtlandığı yere bir referans verebilir misiniz?

28 references rnn

1

Ordinal veya ikili veri için Faktör analizi veya PCA var mı?

Temel bileşen analizi (PCA), keşfedici faktör analizi (EFA) ve doğrulayıcı faktör analizi (CFA) yaptım, sürekli olarak likert ölçeğine sahip verileri (5 seviyeli yanıtlar: yok, biraz, bazıları, ..) değişken. Sonra, Lavaan kullanarak, değişkenleri kategorik olarak tanımlayan CFA'yı tekrarladım. Veriler doğada sıradan olduğunda ne tür analizlerin uygun olacağını ve PCA ve EFA …

28 pca factor-analysis ordinal-data binary-data likert