İstatistikler ve Büyük Veri

2

Kaggle yarışmalarını uzun zamandır takip ediyorum ve birçok kazanma stratejisinin "büyük üçler" den en az birini kullanmayı içerdiğini fark ettim: torbalama, güçlendirme ve istifleme. Regresyonlar için, mümkün olan en iyi regresyon modelini oluşturmak yerine, (Genelleştirilmiş) doğrusal regresyon, rasgele orman, KNN, NN ve SVM regresyon modelleri gibi çoklu regresyon modelleri oluşturmak …

33 predictive-models boosting bagging stacking model-averaging

3

(Neden) Kohonen tarzı SOM lehine düştü mü?

Söyleyebileceğim kadarıyla, Kohonen tarzı SOM'lerin 2005 yıllarında zirveye çıktıkları ve son zamanlarda pek fazla bir ricada bulunmadıkları görülüyor. SOM'lerin başka bir yöntemle yerine getirildiğini veya başka bir şeye eşdeğer olduğunu kanıtlayan herhangi bir makale bulamadım (yine de daha yüksek boyutlarda). Ancak, tSNE ve diğer metotlar günümüzde çok daha fazla mürekkep …

33 clustering self-organizing-maps

3

Derin evrimsel sinir ağında ön eğitim?

Derin konvolüsyonel sinir ağında ön eğitim konusunda herhangi bir literatür gören oldu mu? Yalnızca otomatik kodlayıcıda veya kısıtlı boltzman makinelerinde denetimsiz ön eğitim görmüştüm.

33 machine-learning neural-networks deep-learning conv-neural-network autoencoders

2

R'de Quartiles Bulma

R öğrenirken bir istatistik ders kitabı ile çalışıyorum ve aşağıdaki örnekte bir tökezlemeyle karşılaşıyorum: Baktıktan sonra ?quantilebunu R'de yeniden yaratmaya çalıştım: > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) > quantile(nuclear) 0% 25% 50% 75% 100% 6.0 9.5 16.0 28.0 …

33 r quantiles

1

Faktör Analizi / PCA'da rotasyon yapmanın arkasındaki sezgisel sebep nedir ve nasıl uygun rotasyon seçilmeli?

Sorularım Faktör analizinde (veya PCA'daki bileşenler) faktörlerin dönmesini yapmanın ardındaki sezgisel sebep nedir? Anladığım kadarıyla eğer değişkenler üst bileşenlere (veya faktörlere) neredeyse eşit olarak yüklenirse, o zaman açıkça bileşenleri ayırt etmek zordur. Dolayısıyla bu durumda bileşenlerin daha iyi bir şekilde ayırt edilebilmesi için rotasyon kullanılabilir. Bu doğru mu? Rotasyon yapmanın …

33 pca interpretation factor-analysis dimensionality-reduction factor-rotation

8

Aykırı verileri veriden kaldırmak uygun mudur?

Aykırı verileri bir veri kümesinden kaldırmak için bir yol aradım ve bu soruyu buldum . Bununla birlikte, bu soruya yapılan yorum ve cevapların bazılarında, insanlar aykırı verileri verilerden kaldırmanın kötü bir uygulama olduğunu belirtti. Veri setimde, büyük olasılıkla sadece ölçüm hataları nedeniyle ortaya çıkan birkaç aykırı var. Bazıları olmasa bile, …

33 outliers

2

Bhattacharyya mesafesi ile KL diverjansı arasındaki farklar

Aşağıdaki sorular için sezgisel bir açıklama arıyorum: İstatistik ve bilgi teorisinde, iki ayrı olasılık dağılımı arasındaki farkın ölçütleri olarak Bhattacharyya uzaklık ile KL ayrışması arasındaki fark nedir? Kesinlikle hiçbir ilişkileri yok mu ve iki olasılık dağılımı arasındaki mesafeyi tamamen farklı bir şekilde ölçtüler mi?

33 mathematical-statistics information-theory kullback-leibler bhattacharyya

2

Hosmer-Lemeshow testinde

Bir lojistik regresyon modelinin uyum iyiliği (GOF) için Hosmer-Lemeshow testi (HLT) için test istatistiği şöyle tanımlanır: Numune daha sonra ayrılır d=10d=10d=10 , Deciles D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} , bir Hesaplamalar dilimde aşağıdaki miktarlarda başına: O1d=∑i∈DdyiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i , örneğin, dilimde pozitif vaka gözlenen sayısıDdDdD_d ; O0d=∑i∈Dd(1−yi)O0d=∑i∈Dd(1−yi)O_{0d}=\displaystyle \sum_{i …

33 regression logistic goodness-of-fit degrees-of-freedom hosmer-lemeshow-test

4

(Neden) Fazla donanımlı modellerin büyük katsayıları olma eğilimindedir?

Değişken üzerindeki bir katsayı ne kadar büyükse, modelin bu boyutta "sallanma" yeteneğinin o kadar fazla olması ve gürültüye uyması için daha fazla fırsat sağlanması gerektiğini hayal ediyorum. Modeldeki varyans ve büyük katsayılar arasındaki ilişki konusunda makul bir anlayışa sahip olduğumu düşünmeme rağmen , kıyafet modellerinde neden ortaya çıktıkları konusunda hiçbir …

33 regression variance linear-model bias regularization

7

(Büyük) bir bükülme ile doğum günü paradoksu: Doğum tarihinin eşiyle aynı doğum tarihini paylaşma olasılığı?

Erkek arkadaşımla aynı doğum gününü paylaşıyorum, aynı tarih aynı zamanda aynı yıl doğumlarımız sadece 5 saat kadar sürüyor. Benimle aynı tarihte doğmuş biriyle tanışma şansının oldukça yüksek olduğunu biliyorum ve doğum günü paradoksunu okuduğum küçük olmasına rağmen doğum günümü paylaştığım birkaç kişiyi tanıyorum. Aynı yıl dikkate alınır. Olasılıklar hakkında daha …

33 probability birthday-paradox

5

Örnek bir kovaryans matrisi her zaman simetrik ve pozitif kesin midir?

Bir numunenin kovaryans matrisini hesaplarken, simetrik ve pozitif bir kesin matris elde etmek için bir garanti verilecek mi? Şu anda benim sorunum 4600 gözlem vektörü ve 24 boyuttan oluşuyor.

33 sampling covariance

4

Parçacık fiziğinde kanıt kabul etmek için “5

Haberlerde, CERN'in yarın , Higgs bozonunun deneysel olarak 5 kanıtı ile tespit edildiğini açıklayacağı bildirildi . Bu makaleye göre:σσ\sigma 5 % 99.99994 CMS ve ATLAS dedektörlerinin gördüğü verinin rastgele bir gürültü olmadığı ve% 0.00006 şanssız gözükme şansı olduğunu; 5 , bilimsel bir “keşif” olarak resmen etiketlenecek bir şey için gerekli …

33 hypothesis-testing p-value history

3

rakamları istatistiksel olarak rasgele mi?

Diziyi izlediğinizi varsayalım: 7, 9, 0, 5, 5, 5, 4, 8, 0, 6, 9, 5, 3, 8, 7, 8, 5, 4, 0, 0, 6, 6, 4, 5, 3, 3, 7, 5, 9, 8, 1, 8, 6, 2, 8, 4, 6, 4, 1, 9, 9, 0, 5, 2, 2, 0, 4, …

33 random-generation randomness

2

P değerini anlama

P-değerini açıklayan birçok materyal olduğunu biliyorum. Bununla birlikte, kavram daha fazla açıklama yapmaksızın sıkıca kavramak için kolay değildir. İşte Wikipedia'dan p değerinin tanımı: P-değeri, sıfır hipotezinin doğru olduğu varsayımıyla, en azından gerçekte olduğu kadar uç bir test istatistiği elde etme olasılığıdır. ( http://en.wikipedia.org/wiki/P- değeri ) Benim ilk soru ifadesi ile …

33 hypothesis-testing p-value interpretation

3

Glm modelleri için rezidüel teşhis grafiklerini yorumlamak?

Glm modellerinin kalıntı grafiklerini nasıl yorumlayacağınıza ilişkin kılavuzlar arıyorum. Özellikle poisson, negatif binom, binom modelleri. Modeller "doğru" olduğunda bu alanlardan ne bekleyebiliriz? (örneğin, bir Poisson modeliyle uğraşırken, öngörülen değer arttıkça varyansın artmasını bekliyoruz) Cevapların modellere bağlı olduğunu biliyorum. Herhangi bir referans (veya dikkate alınması gereken genel hususlar) yardımcı / takdir …

33 generalized-linear-model diagnostic residuals