İstatistikler ve Büyük Veri

1

Basit bir lojistik regresyon modeli MNIST'de nasıl bir% 92 sınıflandırma doğruluğu elde eder?

MNIST veri setindeki tüm görüntüler ortalanmış olsa da, benzer bir ölçekte ve dönme olmadan yüz yüze olsalar bile, lineer bir modelin bu kadar yüksek bir sınıflandırma doğruluğunu nasıl elde ettiğini gösteren çok önemli bir el yazısı varyasyonu var. Görselleştirebildiğim kadarıyla, önemli el yazısı varyasyonu dikkate alındığında, rakamlar 784 boyutlu bir …

64 logistic image-processing

3

Genelleştirilmiş tahmin denklemleri ve karma etki modellerini ne zaman kullanmalı?

Uzun süredir karma etkiler modellerini bir süredir boylamsal verilerle kullanıyorum. AR ilişkilerine lmer'de sığabilmeyi diliyorum (bunu doğru yapamayacağımı düşünüyorum?) Ama bunun çok önemli olduğunu düşünmüyorum, bu yüzden fazla endişelenmiyorum. Genelleştirilmiş tahmin denklemlerine (GEE) rastladım ve ME modellerinden çok daha fazla esneklik sunuyor gibi görünüyorlar. Genel bir soru sorma riski altında, …

63 mixed-model gee

9

Bir Bayesian yaklaşımının daha basit, daha pratik veya daha uygun olduğu durumların listesi

İstatistikler içerisinde Bayesliler ile sık görüşmeler arasında birçok tartışma yaşandı. Genelde bunları yerine koyulma buluyorum (her ne kadar öldüğünü düşünüyorum). Öte yandan, konuyla ilgili tamamen pragmatik bir görüşe sahip birkaç kişiyle tanıştım, bazen sıkça bir analiz yapmanın daha uygun olduğunu ve bazen bir Bayesian analizini yürütmenin daha kolay olduğunu söyledim. …

63 bayesian frequentist

3

Boş hipotez anlamlılık testine karşı argümanlar içeren referanslar?

Son birkaç yılda, bilimde boş hipotez anlamlılık testinin kullanılmasına karşı çıkan birkaç makale okudum, ancak kalıcı bir liste tutmayı düşünmedim. Bir meslektaşım kısa bir süre önce benden bir liste istedi, bu yüzden buradaki herkese bu listeyi oluşturma konusunda yardım edeceğimi düşündüm. İşleri başlatmak için şu ana dek sahip olduğum şey: …

63 hypothesis-testing statistical-significance references p-value

10

Taleb ve Kara Kuğu

Taleb'in kitabı "The Black Swan", birkaç yıl önce çıktığında New York Times'ın en çok satanıydı. Kitap şimdi ikinci baskısında. Bir JSM'de istatistikçilerle buluştuktan sonra (yıllık bir istatistik konferansı), Taleb istatistik istatistik eleştirisini bir miktar azalttı. Ancak kitabın itici gücü, istatistiklerin çok kullanışlı olmadığı, çünkü normal dağılıma ve çok nadir olaylara …

63 extreme-value rare-events

8

PCA bunu hala PCA'da döndürme (varimax gibi) izliyor mu?

Benim tecrübelerime R. SPSS dan (PCA kullanarak) biraz araştırma çoğaltmak çalıştık, principal() fonksiyon paketinden psychgole tek fonksiyonu oldu (ya Hafızam beni yanıltmıyorsa, ölü) çıktı maç. SPSS ile aynı sonuçları eşleştirmek için parametreyi kullanmak zorunda kaldım principal(..., rotate = "varimax"). Makalelerin PCA'yı nasıl yaptıkları hakkında konuştuğunu gördüm, ancak SPSS'nin çıktısına ve …

63 r spss pca factor-analysis factor-rotation

5

Çok sayıda regresyon ve çok değişkenli regresyon arasındaki farkı, minimum sembol / matematik kullanımı ile açıklayın.

Çok değişkenli ve çok değişkenli regresyon gerçekten farklı mı? Ne olduğunu zaten bir değişken?

63 regression multiple-regression terminology multivariate-regression

4

Lojistik sınıflandırıcı Softmax vs Sigmoid işlevi?

Lojistik sınıflandırıcısındaki fonksiyon seçimine (Softmax vs Sigmoid) ne karar verir? 4 çıkış sınıfı olduğunu varsayalım. Yukarıdaki fonksiyonların her biri, her sınıfın doğru çıktı olma ihtimalini verir. Peki sınıflandırıcı için hangisi?

63 machine-learning logistic classification softmax

3

Bir sinir ağı ve derin bir inanç ağı arasındaki fark nedir?

İnsanların 'derin bir inanç' ağına atıfta bulundukları zaman bunun temelde bir sinir ağı olduğu ama çok büyük olduğu izlenimini ediniyorum. Bu doğru mu, yoksa derin bir inanç ağı da algoritmanın kendisinin farklı olduğu anlamına mı geliyor (yani, ileriye dönük sinir ağları değil, belki de geri besleme döngüleri olan bir şey)?

62 machine-learning neural-networks deep-learning deep-belief-networks

6

Neden k-araçlar kümeleme algoritması sadece Öklid uzaklık metriğini kullanıyor?

Verimlilik veya işlevsellik açısından k-aracı algoritmasının örneğin uzaklık ölçüsü olarak kosinüs (dis) benzerliğini kullanmadığı, ancak sadece Öklid normunu kullanabileceği belirli bir amaç var mı? Genel olarak, K-aracı yöntemi Öklid'den başka mesafeler göz önüne alındığında veya kullanıldığında uygun olacak ve doğru olacak mı? [@ Ttnphns ilavesi. Soru iki katlıdır. "(Olmayan) Öklid …

62 clustering k-means distance-functions euclidean

3

Aslında bir örnek ağaç randomForest :: getTree () 'den nasıl çizilir? [kapalı]

Herkes, aşağıdakilerden birkaç örnek ağacı çizmenin kütüphane veya kod önerilerini aldı: getTree(rfobj, k, labelVar=TRUE) (Evet, bunu operasyonel bir şekilde yapmanız gerekmediğini biliyorum, RF bir kara kutu, vb. Vb. Görüyorum. Bir ağacın görsel olarak akıl sağlığı kontrolünü yapmak istiyorum - herhangi bir değişkenin ters davranıp davranmadığını görmek için bir ağacı kontrol …

62 r data-visualization random-forest cart

4

Belirsizlik önyükleme tahminlerine ilişkin varsayımlar

Belirsizlik tahminlerinin elde edilmesinde önyüklemenin kullanışlılığını takdir ediyorum, ancak beni her zaman rahatsız eden şey, bu tahminlere karşılık gelen dağılımın örnek tarafından tanımlanan dağıtım olmasıdır. Genel olarak, örnek frekanslarımızın tam olarak altta yatan dağılıma benziyor olduğuna inanmak kötü bir fikir gibi gözüküyor, bu nedenle örnek frekansların altta yatan dağılımı tanımladığı …

62 bootstrap uncertainty

8

A ve B, C ile ilişkilendirilirse, neden A ve B'nin mutlaka korelasyonu yoktur?

Ben ampirik olarak durum böyle biliyorum. Bu bilmeceye giren modelleri daha yeni geliştirdim. Ayrıca mutlaka evet / hayır cevabı olmadığından da şüpheleniyorum. Hem A hem de B, C ile korelasyon gösteriyorsa, bunun A ve B arasındaki korelasyon ile ilgili bazı imaları olabilir, ancak bu ima zayıf olabilir. Bu sadece bir …

62 correlation cross-correlation

8

Bayesanlar: Olasılık fonksiyonunun köleleri?

"İstatistiklerin Tümü" adlı kitabında Prof. Larry Wasserman aşağıdaki örneği sunmaktadır (11.10, sayfa 188). Bir yoğunluk sahip olduğunu varsayalım öyle ki f ( x ) = cfff , g a,bilinen(negatif olmayan, integre) işlevi ve normalizasyon sabit c > 0 olduğubilinmemektedir.f(x)=cg(x)f(x)=cg(x)f(x)=c\,g(x)gggc>0c>0c>0 Hesaplayamadığımız durumlarda c = 1 / ∫ g ( x ) …

62 bayesian mathematical-statistics

3

Lojistik bir regresyonda kalanlar ne anlama geliyor?

Cevaplarken bu soruyu John Christie lojistik regresyon modellerinin uyum artığı değerlendirerek değerlendirilmesi gerektiğini öne sürdü. OLS'deki artıkları nasıl yorumlayacağımı biliyorum, bunlar DV ile aynı ölçekte ve model tarafından öngörülen y ve y arasındaki farkları açıkça görüyorlar. Bununla birlikte, lojistik regresyon için, geçmişte tipik olarak AIC modelinin uygunluk tahminlerini inceledim, çünkü …

62 r logistic generalized-linear-model residuals aic