İstatistikler ve Büyük Veri

2

Yarı-binom dağılımı nedir (GLM bağlamında)?

Birisinin, quasibinomial dağılımın ne olduğu ve ne yaptığı hakkında sezgisel bir bakış açısı sağlayabileceğini umuyorum. Bu noktalara özellikle ilgi duyuyorum: Quasibinomial'in binom dağılımına ne kadar farklı olduğu. Yanıt değişkeni bir oran olduğunda (örnek değerler 0.23, 0.11, 0.78, 0.98'i içerir), R'de bir quasibinomial model çalışacaktır ancak binom bir model çalışmayacaktır. Bir …

30 r generalized-linear-model binomial overdispersion quasi-likelihood

9

Neden vektör hata düzeltme modeli kullanılmalı?

Vektör Hata Düzeltme Modeli ( VECM) hakkında kafam karıştı ) . Teknik arkaplan: VECM , Vektör Çok Amaçlı Modelini ( VAR ) entegre çok değişkenli zaman serilerine uygulama imkanı sunar . Ders kitaplarında, VAR'ın bütünleşik zaman serilerine uygulanmasında bazı problemleri belirtiyorlar , bunlardan en önemlisi sahte regresyon (t-istatistikleri yüksek derecede …

30 time-series forecasting var cointegration vecm

1

Binom dağılım fonksiyonu sınırlandırıcı Poisson dağılım fonksiyonunun üstünde / altında ne zamandır?

Let parametrelerle binom dağılım fonksiyonu (DF) ifade ve değerlendirildi : ve , Poisson DF'yi r \ in \ {0,1,2, \ ldots \} konumunda değerlendirilen a \ in \ mathbb R ^ + parametresiyle göstersin : \ begin {equation} F (a , r) = e ^ {- a} \ sum_ {i …

30 binomial poisson-distribution convergence probability-inequalities

8

Veri madenciliği ve makine öğrenmesi için hangi matematik dersleri hazırlamayı önerirsiniz?

Veri madenciliği ve makine öğrenmesini öğrenmek için kendi kendine yönlendirilen bir matematik müfredatını oluşturmaya çalışıyorum. Bu, Andrew Ng'un makine öğrenme dersini Coursera'da başlatıp ilerlemeden önce matematik becerilerimi geliştirmek için gerekli olduğumu hissetmekle motive oluyor . Bir süre önce üniversiteden mezun oldum, bu yüzden cebirim ve istatistiklerim (özellikle siyaset bilimi / …

30 machine-learning references data-mining

2

lme ve lmer karşılaştırma

Biri beni bu iki işlev arasındaki mevcut farklılıklar hakkında aydınlatabilir mi diye merak ediyordum. Aşağıdaki soruyu buldum: Karma efekt modelleri için nlme veya lme4 R kütüphanesi nasıl seçilir? , ama bu birkaç yıl önceye dayanıyor. Bu yazılım çevrelerinde bir ömür boyu. Özel sorularım: lmeBununla lmerbaşa çıkamayan herhangi bir korelasyon yapısı …

30 r mixed-model lme4-nlme

2

Negatif binom regresyon varsayımları nelerdir?

Büyük bir veri setiyle çalışıyorum (gizli, bu yüzden çok fazla paylaşamıyorum) ve sonuçta negatif bir binom regresyonunun gerekli olacağı sonucuna vardım. Daha önce hiç glm regresyonu yapmamıştım ve varsayımların ne olduğu hakkında net bir bilgi bulamıyorum. MLR için aynı mılar? Değişkenleri aynı şekilde dönüştürebilir miyim (Zaten doğal bir sayı olması …

30 regression generalized-linear-model data-transformation assumptions negative-binomial

2

Bimodal dağılım testi

İki modlu bir dağılımın önemini "test etmek" için herhangi bir istatistiksel test olup olmadığını merak ediyorum. Demek istediğim, verilerim iki modlu dağılıma uyuyor mu değil mi? Eğer öyleyse, R programında herhangi bir test var mı?

30 r hypothesis-testing distributions bimodal

1

Anova () komutu bir lmer model nesnesiyle ne yapar?

Umarım bu, burada benim için birisinin lmer( lme4 R paketinden) uygun olan karışık efektler modelindeki kareler toplamının ayrıştırılması niteliği ile ilgili cevap verebileceği bir sorudur . Öncelikle, bu yaklaşımı kullanma konusundaki tartışmaların farkında olduğumu söylemeliyim ve pratikte modelleri karşılaştırmak için önyüklemeli bir LRT kullanma ihtimalim daha fazla olacaktır (Faraway, 2006 …

30 r anova mixed-model lme4-nlme

4

R PCA ile boyutsallık azaltma nasıl yapılır

Büyük bir veri kümem var ve boyutsallık azaltma yapmak istiyorum. Şimdi her yerde bunun için PCA kullanabileceğimi okudum. Bununla birlikte, PCA'yı hesapladıktan / uyguladıktan sonra ne yapacağımı hala anlamadım. R'de bu komutla kolayca yapılabilir princomp. Fakat PCA'yı hesapladıktan sonra ne yapmalı? İlk ana bileşeni kullanmak istediğime karar verirsem , veri …

30 r pca

3

Çok sınıflı bir sınıflandırıcının kalitesi nasıl belirlenir

verilmiş örneği ile bir veri kümesi ile birlikte , her örnek burada sınıfları tam bir sınıfı aitxixix_iNNNxixix_iyiyiy_i çok sınıflı bir sınıflandırıcı Eğitim ve test ettikten sonra ben temelde bir tablo var gerçek sınıf ve tahmin sınıf her örneği için testi sette. Bu yüzden her örnek için bir eşleşme ( ) …

30 machine-learning classification multi-class

5

Veriler “keşif” vs veriler “meraklanma” / “işkence”?

Çoğu zaman "veri gizliliği" ( örneğin eğlenceli bir örnek ) hakkında gayri resmi uyarılarla karşılaştım ve bunun ne anlama geldiği ve neden bir sorun olabileceği konusunda sezgisel bir fikrim olduğunu düşünüyorum. Öte yandan, "keşifsel veri analizi" istatistiklerde mükemmel bir şekilde saygıdeğer bir prosedür gibi görünmektedir, en azından bu başlığa sahip …

30 multiple-comparisons interpretation eda

4

Dizeleri ayrıştırmak için makine öğrenme teknikleri?

Çok fazla adres dizgim var: 1600 Pennsylvania Ave, Washington, DC 20500 USA Onları bileşenlerine göre ayrıştırmak istiyorum: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Ancak elbette veriler kirli: birçok ülkede birçok dilde geliyor, farklı şekillerde yazılmış, yazım hataları var, eksik parçalar var, fazladan önemsiz şeyler …

30 machine-learning text-mining

3

Verileri işlemden ayıran bir dağılım grafiği oluşturmak için R'yi kullanmanın iyi bir yolu nedir?

Genel olarak R ve istatistikler konusunda çok yeniyim, ancak kendi yerel kapasitelerinin ötesinde olabileceğini düşündüğüm bir dağılım çizmem gerekiyor. Birkaç gözlem vektörüne sahibim ve onlarla bir dağılım grafiği oluşturmak istiyorum ve her bir çift üç kategoriden birine giriyor. Her kategoriyi renkli veya sembolle ayıran bir saçılma grafiği yapmak istiyorum. Bunun …

30 r data-visualization scatterplot

5

Örnekleme dağılımını öğretme stratejileri

Tl; dr sürümü Örnekleme dağılımını (örneğin ortalama bir örnek olarak) giriş seviyesi bir lisans düzeyinde öğretmek için hangi başarılı stratejileri kullanıyorsunuz? Arkaplan Eylül ayında , David Moore tarafından Temel İstatistik Uygulaması'nı kullanan ikinci sınıf sosyal bilimler (temel olarak siyaset bilimi ve sosyoloji) öğrencileri için tanıtım istatistiği dersi vereceğim . Bu …

30 distributions sampling teaching

3

Hakemli açık kaynaklı dergi için tavsiye?

Tek bir ortalama hipotezini test etmek için bir bootstrap metodu ile ilgili bir el yazması var ve onu yayın için göndermek istiyorum, ama ahlaki bir ikilemim var. Elsevier'e karşı etik dışı iş uygulamalarını protesto etmek için imza atmıştım ve bu konuyu okumak, diğer kâr amacı gütmeyen akademik dergilerin etiğini sorgulamamı …

30 hypothesis-testing bootstrap journals