İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

3
İlk denenecek en iyi beş sınıflayıcı
Gibi belirgin sınıflandırıcı özellikleri yanında hesaplamalı maliyet beklenen veri türü özellikleri / etiketleri ve veri setlerinin belirli boyut ve boyutlarına uygunluk, Yeni bir veri setinde önce denenecek ilk beş (veya 10, 20?) sınıflandırıcı hangisi hakkında henüz fazla bir şey bilmiyor (örneğin, bireysel özelliklerin anlambilimi ve korelasyonu)? Genellikle Naive Bayes, En …

2
Çok sorulu bir sınavda hile biçimlerinin tespiti
SORU: Sınav sorularına ilişkin ikili veri var (doğru / yanlış) Bazı kişiler, bir soru alt kümesine ve doğru cevaplarına önceden erişebilmiş olabilir. Kim, kaç veya hangisi olduğunu bilmiyorum. Hiçbir hile olsaydı, ben öğe için doğru bir tepki olasılığını modellemek herhalde olarak , nerede soru zorluk temsil eder ve bireyin gizli …

2
R de olabilirlik oranı testi
Farz edelim ki birkaç bağımsız değişkende tek değişkenli bir lojistik regresyon yapacağım, bunun gibi: mod.a <- glm(x ~ a, data=z, family=binominal("logistic")) mod.b <- glm(x ~ b, data=z, family=binominal("logistic")) Bu komutla modelin null modelden daha iyi olup olmadığını görmek için bir model karşılaştırma yaptım (olasılık oranı testi). 1-pchisq(mod.a$null.deviance-mod.a$deviance, mod.a$df.null-mod.a$df.residual) Sonra içindeki …
25 r  logistic  diagnostic 

2
Küçük örneklemli araştırmalarda keşif veri analizi ve veri tarama ile nasıl baş edilir?
Keşifsel veri analizi (EDA) çoğu zaman, mutlaka ilk hipotez grubuna ait olmayan diğer "izleri" keşfetmeye yol açar. Sınırlı örneklem büyüklüğü ve farklı anketler (sosyo-demografik veriler, nöropsikolojik veya tıbbi ölçekler - örneğin, zihinsel veya fiziksel işleyiş, depresyon / anksiyete düzeyi, belirtiler kontrol listesi) ile toplanan çok sayıda veri içeren çalışmalarda böyle …

2
Sıra veya aralık verileri için puanlayıcılar arası güvenilirlik
Sıralı veya aralıklı veriler için en çok puanlayıcılar arası güvenilirlik yöntemleri hangileridir? "Ortak anlaşma olasılığı" veya "Kappa" nın nominal veriler için tasarlandığını düşünüyorum. "Pearson" ve "Spearman" kullanılabilse de, esas olarak iki puanlayıcı için kullanılırlar (ikiden fazla puanlayıcı için kullanılsalar da). Sıralı veya aralıklı veriler için, yani ikiden fazla puanlayıcı için …

3
Dalgacıkların zaman serisi temelli anomali tespit algoritmalarına uygulanması
Andrew Moore'dan İstatistiksel Veri Madenciliği Dersleri yoluyla çalışmaya başladım (bu alana ilk kez giriş yapan herkese şiddetle tavsiye edilir). Moore'un hastalık salgınlarını tespit etmek için bir algoritma oluşturmada kullanılan tekniklerin çoğunu takip ettiği "Zaman serisi temelli anomali tespit algoritmalarına giriş genel bakış" başlıklı bu son derece ilginç PDF dosyasını okuyarak …

8
Bir etkinliğe kaç kişinin katıldığı tahmin edilebilir (örneğin, siyasi bir miting)?
Bugün bana bir öğrenci, “Washington DC'deki Stewart / Colbert“ Sanity Restore için Miting ”gibi büyük bir grup etkinliğine kaç kişinin katıldığını nasıl biliyorlar? Haber bültenleri onbinlerce tahmin rapor ediyor, ancak bu tahminleri almak için hangi yöntemler kullanılıyor ve ne kadar güvenilirler? Görünüşe göre, bir makale park izinlerine dayanarak tahminlerini temel …

4
Amip Röportaj Sorusu
Bu soruya, özel bir ticari firma ile bir ticari pozisyon görüşmesi sırasında soruldu. Bu sorunun cevabını ve arkasındaki sezgiyi bilmek istiyorum. Amip Sorusu: Bir amip popülasyonu 1 ile başlar. Bir periyodun ardından, amip eşit olasılıkla 1, 2, 3 veya 0'a bölünebilir (ölebilir). Nihayetinde tüm nüfusun ölme olasılığı nedir?

3
Likert Madde Yanıt Verilerinin Görselleştirilmesi
Likert tepkilerinin kümesini görselleştirmenin iyi yolları nelerdir? Örneğin, X'in A, B, C, D, E, F & G hakkındaki kararlarında önemini sorgulayan bir madde kümesi mi? Yığılmış çubuk grafiklerinden daha iyi bir şey var mı? N / A cevaplarıyla ne yapılmalı? Nasıl temsil edilebilirler? Çubuk grafikler yüzdeleri veya yanıt sayısını rapor …

7
Olasılık ve oran arasındaki fark nedir?
Diyelim ki yıllardır her Salı hamburger yedim. Hamburgerin zamanın% 14'ünü yediğimi ya da belirli bir haftada hamburger yeme olasılığımın% 14 olduğunu söyleyebilirsin. Olasılıklar ve oranlar arasındaki temel farklar nelerdir? Bir olasılık beklenen bir oran mıdır? Olasılıklar belirsiz mi ve oranlar garanti mi?

3
Menteşe kaybının gradyanı
Temel degrade inişini uygulamaya çalışıyorum ve bunu bir menteşe kaybı fonksiyonu ile test ediyorum, yani lhinge=max(0,1−y x⋅w)lhinge=max(0,1−y x⋅w)l_{\text{hinge}} = \max(0,1-y\ \boldsymbol{x}\cdot\boldsymbol{w}) . Ancak, menteşe kaybının derecesi hakkında kafam karıştı. Olduğu izlenimi altındayım ∂∂wlhinge={−y x0if y x⋅w<1if y x⋅w≥1∂∂wlhinge={−y xif y x⋅w<10if y x⋅w≥1 \frac{\partial }{\partial w}l_{\text{hinge}} = \begin{cases} -y\ \boldsymbol{x} …

5
Belirli bir ARIMA açıklaması türü aranıyor
Bunu bulmak zor olabilir, ama iyi açıklanmış bir ARIMA örneği okumak istiyorum . en az matematik kullanır Tartışmayı, belirli vakaları tahmin etmek için bir model oluşturmanın ötesine taşıyor Öngörülen ve gerçek değerler arasındaki uyumu karakterize etmek için sayısal sonuçların yanı sıra grafikleri de kullanır.

3
Kolmogorov-Smirnov testi neden çalışıyor?
2 örnekli KS testi hakkında okurken, tam olarak ne yaptığını biliyorum ama neden işe yaradığını anlamıyorum . Başka bir deyişle, ampirik dağılım fonksiyonlarını hesaplamak, D istatistiklerini bulmak için ikisi arasındaki maksimum farkı bulmak, kritik değerleri hesaplamak, D istatistiklerini bir p değerine dönüştürmek vb. Ancak, bunların hiçbirinin neden iki dağıtım hakkında …

3
Etkileşim terimine sahip LASSO - ana etkiler sıfıra indirilirse sorun olmaz mı?
LASSO regresyonu katsayıları sıfıra doğru küçültür, böylece etkin model seçimi sağlar. Verilerimde nominal ve sürekli değişkenler arasında anlamlı etkileşimler olduğuna inanıyorum. Bununla birlikte, zorunlu olarak, gerçek modelin 'sıfır etkisi olmayan' ana etkileridir. Tabii ki, gerçek model bilinmediğinden bunu bilmiyorum. Hedeflerim gerçek modeli bulmak ve sonucu mümkün olduğunca yakın tahmin etmektir. …

6
Dışbükey problemler için Stokastik Gradyan İnişi'ndeki (SGD) gradyan her zaman global aşırı değeri gösterir mi?
Dışbükey bir maliyet fonksiyonu göz önüne alındığında, optimizasyon için SGD kullanılarak, optimizasyon işlemi sırasında belirli bir noktada bir degradeye (vektör) sahip olacağız. Sorum şu ki, dışbükeydeki noktaya göre, gradyan yalnızca işlevin en hızlı yükseldiği / azaldığı yönü işaret ediyor mu, yoksa gradyan her zaman maliyet işlevinin en uygun / en …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.