İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

3
K-fold ve Monte Carlo çapraz doğrulama
Öncelikle denetlenen çok değişkenli analiz tekniklerine başvurmak amacıyla çeşitli çapraz doğrulama yöntemlerini öğrenmeye çalışıyorum. Karşılaştığım iki K-kat ve Monte Carlo çapraz doğrulama teknikleri. K-fold'ın Monte Carlo'daki bir varyasyon olduğunu okudum ama Monte Carlo'nun tanımını neyin yaptığını tam olarak anladığımdan emin değilim. Birisi lütfen bu iki yöntem arasındaki farkı açıklayabilir mi?



3
R: Veri setinde NaN bulunmamasına rağmen “yabancı işlev çağrısı” na NaN / Inf atma Rastgele Orman [kapalı]
Bir veri kümesi üzerinde çapraz doğrulanmış rasgele bir orman çalıştırmak için şapka kullanıyorum. Y değişkeni bir faktördür. Veri setimde hiç NaN, Inf veya NA yok. Ancak rastgele orman çalıştırırken, alıyorum Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use …

4
Andrew Ng neden PCA yapmak için koordine matrisinin EIG'sini değil SVD'yi kullanmayı tercih ediyor?
Andrew Ng's Coursera dersinden ve diğer materyallerden PCA okuyorum. Stanford NLP dersinde cs224n'nin ilk ödevinde ve Andrew Ng'un ders videosunda kovaryans matrisinin özvektör ayrışması yerine tekil değer ayrıştırması yapıyorlar ve Ng, SVD'nin özerk kompozisyondan sayısal olarak daha kararlı olduğunu söylüyor. Anladığım kadarıyla PCA için, (m,n)boyutun kovaryans matrisinden değil, boyut veri …


1
sklearn'in sınıflandırma raporundaki rakamlar ne anlama geliyor?
Ben sklearn 's sklearn.metrics.classification_report belgelerine çektiğim bir örnek aşağıda. Anlamadığım şey, sınıfın yordayıcı etiket olduğuna inandığım her sınıf için neden f1 puan, kesinlik ve hatırlama değerleri olduğudur? F1 skorunun modelin genel doğruluğunu söylediğini sanıyordum. Ayrıca, destek sütunu bize ne anlatıyor? Bununla ilgili hiçbir bilgi bulamadım. print(classification_report(y_true, y_pred, target_names=target_names)) precision recall …

2
Bir glm çalışırken "sistem hesaplama açısından tekil" hatası
Bir glm tahmini yürütmek için robustbase paketini kullanıyorum . Ancak bunu yaptığımda aşağıdaki hatayı alıyorum: Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 Bu ne anlama / anlama geliyor? Ve nasıl hata ayıklayabilirim? PS. Cevaplamak için herhangi bir şeye (formül / …

3
AUC neden daha doğru olan bir sınıflayıcı için daha doğru bir sınıflayıcıya göre daha yüksektir?
İki sınıflandırıcım var A: saf Bayesian ağı B: ağaç (tek başına bağlı) Bayesian ağı Doğruluk ve diğer önlemler bakımından A, B'den daha kötü performans gösterir. Ancak, ROC analizi yapmak için RR ROCR ve AUC paketlerini kullandığımda, A için AUC'nin B için AUC'den daha yüksek olduğu ortaya çıktı. olay? Gerçek pozitif …

4
Bir dağılımın düzensizliğini nasıl ölçer?
Çalıştığım bir deney için dağılımın tek biçimliliğini ölçmek için bir ölçüm bulmaya çalışıyorum. Çoğu durumda eşit olarak dağıtılması gereken rastgele bir değişkenim var ve değişkenin bazı sınırlar içinde eşit olarak dağıtılmadığı veri kümelerinin örneklerini tanımlayabiliyorum (ve derecesini ölçebiliyorum). Her biri, ölçtüğüm bir şeyin meydana gelme sıklığını temsil eden 10 ölçümden …

2
Statistics.com yanlış cevabı yayınladı mı?
Statistics.com haftanın bir sorununu yayınladı: Konut sigortası dolandırıcılığı oranı% 10 (on iddiadan biri hileli). Bir danışman, talepleri gözden geçirmek ve sahtekarlık veya sahtekarlık olarak sınıflandırmak için bir makine öğrenme sistemi önermiştir. Sistem hileli taleplerin tespitinde% 90 etkilidir, ancak sahtekarlık taleplerinin doğru bir şekilde sınıflandırılmasında yalnızca% 80 etkilidir (yanlışlıkla beşte birini …

2
SVM algoritmasının arkasındaki istatistiksel model nedir?
Modele dayalı bir yaklaşım kullanarak veriyle uğraşırken ilk adımın veri prosedürünü istatistiksel bir model olarak modellemek olduğunu öğrendim. Ardından bir sonraki adım bu istatistiksel modele dayanan verimli / hızlı çıkarım / öğrenme algoritması geliştirmektir. Bu yüzden hangi istatistiksel modelin destek vektör makinesi (SVM) algoritmasının arkasında olduğunu sormak istiyorum.

3
Neden iki normal dağılım değişkeninin bir karışımı sadece ortalamaları standart standart sapmanın en az iki katı kadar farklı ise iki modludur?
İki normal dağılımın karışımı altında: https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions "İki normal dağılımın bir karışımını tahmin etmek için beş parametreye sahiptir: iki araç, iki değişken ve karışım parametresi. Eşit standart sapmalara sahip iki normal dağılımın bir karışımı, ortalamaları ortalama standart sapmanın en az iki katı farklı ise iki modludur. ." Bunun neden doğru olduğuna …
28 bimodal 


1
Ordinal veya ikili veri için Faktör analizi veya PCA var mı?
Temel bileşen analizi (PCA), keşfedici faktör analizi (EFA) ve doğrulayıcı faktör analizi (CFA) yaptım, sürekli olarak likert ölçeğine sahip verileri (5 seviyeli yanıtlar: yok, biraz, bazıları, ..) değişken. Sonra, Lavaan kullanarak, değişkenleri kategorik olarak tanımlayan CFA'yı tekrarladım. Veriler doğada sıradan olduğunda ne tür analizlerin uygun olacağını ve PCA ve EFA …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.