İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

2
Bu sanat regresyon metodolojisi mi?
Kaggle yarışmalarını uzun zamandır takip ediyorum ve birçok kazanma stratejisinin "büyük üçler" den en az birini kullanmayı içerdiğini fark ettim: torbalama, güçlendirme ve istifleme. Regresyonlar için, mümkün olan en iyi regresyon modelini oluşturmak yerine, (Genelleştirilmiş) doğrusal regresyon, rasgele orman, KNN, NN ve SVM regresyon modelleri gibi çoklu regresyon modelleri oluşturmak …

3
(Neden) Kohonen tarzı SOM lehine düştü mü?
Söyleyebileceğim kadarıyla, Kohonen tarzı SOM'lerin 2005 yıllarında zirveye çıktıkları ve son zamanlarda pek fazla bir ricada bulunmadıkları görülüyor. SOM'lerin başka bir yöntemle yerine getirildiğini veya başka bir şeye eşdeğer olduğunu kanıtlayan herhangi bir makale bulamadım (yine de daha yüksek boyutlarda). Ancak, tSNE ve diğer metotlar günümüzde çok daha fazla mürekkep …


2
R'de Quartiles Bulma
R öğrenirken bir istatistik ders kitabı ile çalışıyorum ve aşağıdaki örnekte bir tökezlemeyle karşılaşıyorum: Baktıktan sonra ?quantilebunu R'de yeniden yaratmaya çalıştım: > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) > quantile(nuclear) 0% 25% 50% 75% 100% 6.0 9.5 16.0 28.0 …
33 r  quantiles 

1
Faktör Analizi / PCA'da rotasyon yapmanın arkasındaki sezgisel sebep nedir ve nasıl uygun rotasyon seçilmeli?
Sorularım Faktör analizinde (veya PCA'daki bileşenler) faktörlerin dönmesini yapmanın ardındaki sezgisel sebep nedir? Anladığım kadarıyla eğer değişkenler üst bileşenlere (veya faktörlere) neredeyse eşit olarak yüklenirse, o zaman açıkça bileşenleri ayırt etmek zordur. Dolayısıyla bu durumda bileşenlerin daha iyi bir şekilde ayırt edilebilmesi için rotasyon kullanılabilir. Bu doğru mu? Rotasyon yapmanın …

8
Aykırı verileri veriden kaldırmak uygun mudur?
Aykırı verileri bir veri kümesinden kaldırmak için bir yol aradım ve bu soruyu buldum . Bununla birlikte, bu soruya yapılan yorum ve cevapların bazılarında, insanlar aykırı verileri verilerden kaldırmanın kötü bir uygulama olduğunu belirtti. Veri setimde, büyük olasılıkla sadece ölçüm hataları nedeniyle ortaya çıkan birkaç aykırı var. Bazıları olmasa bile, …
33 outliers 

2
Bhattacharyya mesafesi ile KL diverjansı arasındaki farklar
Aşağıdaki sorular için sezgisel bir açıklama arıyorum: İstatistik ve bilgi teorisinde, iki ayrı olasılık dağılımı arasındaki farkın ölçütleri olarak Bhattacharyya uzaklık ile KL ayrışması arasındaki fark nedir? Kesinlikle hiçbir ilişkileri yok mu ve iki olasılık dağılımı arasındaki mesafeyi tamamen farklı bir şekilde ölçtüler mi?

2
Hosmer-Lemeshow testinde
Bir lojistik regresyon modelinin uyum iyiliği (GOF) için Hosmer-Lemeshow testi (HLT) için test istatistiği şöyle tanımlanır: Numune daha sonra ayrılır d=10d=10d=10 , Deciles D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} , bir Hesaplamalar dilimde aşağıdaki miktarlarda başına: O1d=∑i∈DdyiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i , örneğin, dilimde pozitif vaka gözlenen sayısıDdDdD_d ; O0d=∑i∈Dd(1−yi)O0d=∑i∈Dd(1−yi)O_{0d}=\displaystyle \sum_{i …

4
(Neden) Fazla donanımlı modellerin büyük katsayıları olma eğilimindedir?
Değişken üzerindeki bir katsayı ne kadar büyükse, modelin bu boyutta "sallanma" yeteneğinin o kadar fazla olması ve gürültüye uyması için daha fazla fırsat sağlanması gerektiğini hayal ediyorum. Modeldeki varyans ve büyük katsayılar arasındaki ilişki konusunda makul bir anlayışa sahip olduğumu düşünmeme rağmen , kıyafet modellerinde neden ortaya çıktıkları konusunda hiçbir …

7
(Büyük) bir bükülme ile doğum günü paradoksu: Doğum tarihinin eşiyle aynı doğum tarihini paylaşma olasılığı?
Erkek arkadaşımla aynı doğum gününü paylaşıyorum, aynı tarih aynı zamanda aynı yıl doğumlarımız sadece 5 saat kadar sürüyor. Benimle aynı tarihte doğmuş biriyle tanışma şansının oldukça yüksek olduğunu biliyorum ve doğum günü paradoksunu okuduğum küçük olmasına rağmen doğum günümü paylaştığım birkaç kişiyi tanıyorum. Aynı yıl dikkate alınır. Olasılıklar hakkında daha …


4
Parçacık fiziğinde kanıt kabul etmek için “5
Haberlerde, CERN'in yarın , Higgs bozonunun deneysel olarak 5 kanıtı ile tespit edildiğini açıklayacağı bildirildi . Bu makaleye göre:σσ\sigma 5 % 99.99994 CMS ve ATLAS dedektörlerinin gördüğü verinin rastgele bir gürültü olmadığı ve% 0.00006 şanssız gözükme şansı olduğunu; 5 , bilimsel bir “keşif” olarak resmen etiketlenecek bir şey için gerekli …


2
P değerini anlama
P-değerini açıklayan birçok materyal olduğunu biliyorum. Bununla birlikte, kavram daha fazla açıklama yapmaksızın sıkıca kavramak için kolay değildir. İşte Wikipedia'dan p değerinin tanımı: P-değeri, sıfır hipotezinin doğru olduğu varsayımıyla, en azından gerçekte olduğu kadar uç bir test istatistiği elde etme olasılığıdır. ( http://en.wikipedia.org/wiki/P- değeri ) Benim ilk soru ifadesi ile …

3
Glm modelleri için rezidüel teşhis grafiklerini yorumlamak?
Glm modellerinin kalıntı grafiklerini nasıl yorumlayacağınıza ilişkin kılavuzlar arıyorum. Özellikle poisson, negatif binom, binom modelleri. Modeller "doğru" olduğunda bu alanlardan ne bekleyebiliriz? (örneğin, bir Poisson modeliyle uğraşırken, öngörülen değer arttıkça varyansın artmasını bekliyoruz) Cevapların modellere bağlı olduğunu biliyorum. Herhangi bir referans (veya dikkate alınması gereken genel hususlar) yardımcı / takdir …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.