İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

4
Cumming (2008), kopyalarda elde edilen p değerlerinin dağılımının sadece orijinal p değerine bağlı olduğunu iddia eder. Nasıl doğru olabilir?
Geoff Cumming'in 2008 makalesinde Replikasyon ve Aralıkları'nıpppppp okuyordum : p değerleri geleceği yalnızca belirsiz bir şekilde öngörüyor, ancak güven aralıkları çok daha iyi sonuç veriyor [Google Akademik'te 200 alıntı] - ve merkezi iddialarından biriyle kafam karıştı. Bu Cumming karşı savunuyor gazetelerin dizi biridir -değerlerinin ve güven aralıkları lehine; Ancak benim …


5
Sinir ağları - vektör makinelerini destekler: ikincisi kesinlikle üstün mü?
Okuduğum makalelerin çoğu yazarları, SVM'lerin NN'lerle benzer sonuçlar elde edemediklerini bilerek, regresyon / sınıflandırma problemleriyle yüzleşmek için üstün bir teknik olduğunu kabul ediyorlar. Genellikle karşılaştırmalar NN'ler yerine SVM'ler, Güçlü bir kurucu teori var İkinci dereceden programlama sayesinde global olarak optimum seviyeye ulaşın Uygun sayıda parametre seçmekte sorun yok Fazla giydirmeye …

6
Rastgele Orman modelinin öngörüleri tahmin aralığına sahip mi?
Bir randomForestmodel çalıştırırsam , o zaman modele dayalı tahminler yapabilirim. Modelin cevabının ne kadar “kesin” olduğunu bildiğim için tahminlerin her birinin tahmin aralığını elde etmenin bir yolu var mı? Bu mümkünse, tüm model için bağımlı değişkenin değişkenliğine dayanıyor mu, yoksa belirli bir tahmin için takip edilen belirli karar ağacına bağlı …

2
Kapalı formdaki kement çözeltisinin türetilmesi
Kement sorunu için öyle \ | \ beta \ | _1 \ leq t . Yumuşak eşikleme sonucunu sık sık görüyorum \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS}} | - \ gamma) …
52 lasso 

3
ANOVA varsayım normalliği / artıkların normal dağılımı
ANOVA Wikipedia sayfasında üç varsayımları listeler yani: Durumların bağımsızlığı - bu, istatistiksel analizi basitleştiren modelin bir varsayımıdır. Normallik - artıkların dağılımları normaldir. Eşcinsellik (veya "homojenlik"), eşcinsellik denir ... Burada ilgilenilen nokta ikinci varsayımdır. Birkaç kaynak, varsayımı farklı şekilde listeler. Bazıları ham verilerin normalliğini, bazılarının artıklarının olduğunu söylüyor Birkaç soru açılır: …

2
Ki kare testi ile eşit oranlarda test arasındaki ilişki nedir?
Diyelim ki dört, birbirini dışlayan özelliklere sahip üç popülasyonum var. Her popülasyondan rastgele örnekler alıyorum ve ölçtüğüm özellikler için bir çapraz tablo veya frekans tablosu yapıyorum. Bunu söylerken doğru mu: Eğer popülasyonlar ve özellikler arasında bir ilişki olup olmadığını test etmek istersem (örneğin, bir popülasyonun özelliklerden birinin frekansının daha yüksek …

8
Bir istatistik tezgahı olarak Excel
Görünüşe göre birçok insan (ben dahil) Excel'de keşifsel veri analizi yapmak istiyor. Bir e-tabloda izin verilen satır sayısı gibi bazı sınırlamalar acı vericidir, ancak çoğu durumda verileri Excel ile oynamayı imkansız kılmaz. Bununla birlikte, McCullough ve Heiser tarafından yazılmış bir makale , pratik olarak, sonuçlarınızın yanlış olduğunu - ve muhtemelen …

14
Gauss (normal) dağılımın en şaşırtıcı özelliği nedir?
üzerindeki standartlaştırılmış bir Gauss dağılımı açıkça yoğunluğunu vererek tanımlanabilir: RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} veya karakteristik işlevi. Bu soruda hatırlandığı üzere , örneklemin ortalama ve varyansının bağımsız olduğu tek dağılım budur. Bildiğiniz Gaussian önlemlerin diğer şaşırtıcı alternatif karakteristikleri nelerdir? En şaşırtıcı cevabı kabul edeceğim

10
Uzaklık matrisiyle kümeleme
Her bir Mdüğüm çifti arasındaki mesafeyi temsil eden bir (simetrik) matrisim var. Örneğin, abcçdefgğhıi A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 80 80 120 …
52 clustering 

2
Yapay bir sinir ağı ANN, denetlenmemiş kümelenme için nasıl kullanılabilir?
artificial neural network (ANN)Tahminlerde hatayı azaltarak armatürü iyileştirmek için backpropogation kullanarak denetimli bir şekilde nasıl eğitilebileceğini anlıyorum . Bir YSA'nın denetimsiz öğrenme için kullanılabileceğini duydum, ancak optimizasyon aşamalarını yönlendirmek için bir çeşit maliyet fonksiyonu olmadan nasıl yapılabilir? K-means veya EM algoritması ile her yinelemenin artması için bir fonksiyon vardır. Bir …




5
Makine Öğrenmesinde dengesiz veriler ne zaman bir problemdir?
Lojistik regresyon , SVM , karar ağaçları , torbalama ve benzeri pek çok başka soru kullanırken dengesiz veriler hakkında çoktan sorularımız vardı , bu da onu çok popüler bir konu haline getirdi! Maalesef, soruların her biri algoritmaya özgü görünüyor ve dengesiz verilerle ilgilenmek için genel bir kılavuz bulamadım. Dengesiz verilerle …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.