İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

2
Yarı-binom dağılımı nedir (GLM bağlamında)?
Birisinin, quasibinomial dağılımın ne olduğu ve ne yaptığı hakkında sezgisel bir bakış açısı sağlayabileceğini umuyorum. Bu noktalara özellikle ilgi duyuyorum: Quasibinomial'in binom dağılımına ne kadar farklı olduğu. Yanıt değişkeni bir oran olduğunda (örnek değerler 0.23, 0.11, 0.78, 0.98'i içerir), R'de bir quasibinomial model çalışacaktır ancak binom bir model çalışmayacaktır. Bir …

9
Neden vektör hata düzeltme modeli kullanılmalı?
Vektör Hata Düzeltme Modeli ( VECM) hakkında kafam karıştı ) . Teknik arkaplan: VECM , Vektör Çok Amaçlı Modelini ( VAR ) entegre çok değişkenli zaman serilerine uygulama imkanı sunar . Ders kitaplarında, VAR'ın bütünleşik zaman serilerine uygulanmasında bazı problemleri belirtiyorlar , bunlardan en önemlisi sahte regresyon (t-istatistikleri yüksek derecede …


8
Veri madenciliği ve makine öğrenmesi için hangi matematik dersleri hazırlamayı önerirsiniz?
Veri madenciliği ve makine öğrenmesini öğrenmek için kendi kendine yönlendirilen bir matematik müfredatını oluşturmaya çalışıyorum. Bu, Andrew Ng'un makine öğrenme dersini Coursera'da başlatıp ilerlemeden önce matematik becerilerimi geliştirmek için gerekli olduğumu hissetmekle motive oluyor . Bir süre önce üniversiteden mezun oldum, bu yüzden cebirim ve istatistiklerim (özellikle siyaset bilimi / …

2
lme ve lmer karşılaştırma
Biri beni bu iki işlev arasındaki mevcut farklılıklar hakkında aydınlatabilir mi diye merak ediyordum. Aşağıdaki soruyu buldum: Karma efekt modelleri için nlme veya lme4 R kütüphanesi nasıl seçilir? , ama bu birkaç yıl önceye dayanıyor. Bu yazılım çevrelerinde bir ömür boyu. Özel sorularım: lmeBununla lmerbaşa çıkamayan herhangi bir korelasyon yapısı …

2
Negatif binom regresyon varsayımları nelerdir?
Büyük bir veri setiyle çalışıyorum (gizli, bu yüzden çok fazla paylaşamıyorum) ve sonuçta negatif bir binom regresyonunun gerekli olacağı sonucuna vardım. Daha önce hiç glm regresyonu yapmamıştım ve varsayımların ne olduğu hakkında net bir bilgi bulamıyorum. MLR için aynı mılar? Değişkenleri aynı şekilde dönüştürebilir miyim (Zaten doğal bir sayı olması …

2
Bimodal dağılım testi
İki modlu bir dağılımın önemini "test etmek" için herhangi bir istatistiksel test olup olmadığını merak ediyorum. Demek istediğim, verilerim iki modlu dağılıma uyuyor mu değil mi? Eğer öyleyse, R programında herhangi bir test var mı?

1
Anova () komutu bir lmer model nesnesiyle ne yapar?
Umarım bu, burada benim için birisinin lmer( lme4 R paketinden) uygun olan karışık efektler modelindeki kareler toplamının ayrıştırılması niteliği ile ilgili cevap verebileceği bir sorudur . Öncelikle, bu yaklaşımı kullanma konusundaki tartışmaların farkında olduğumu söylemeliyim ve pratikte modelleri karşılaştırmak için önyüklemeli bir LRT kullanma ihtimalim daha fazla olacaktır (Faraway, 2006 …

4
R PCA ile boyutsallık azaltma nasıl yapılır
Büyük bir veri kümem var ve boyutsallık azaltma yapmak istiyorum. Şimdi her yerde bunun için PCA kullanabileceğimi okudum. Bununla birlikte, PCA'yı hesapladıktan / uyguladıktan sonra ne yapacağımı hala anlamadım. R'de bu komutla kolayca yapılabilir princomp. Fakat PCA'yı hesapladıktan sonra ne yapmalı? İlk ana bileşeni kullanmak istediğime karar verirsem , veri …
30 r  pca 


5
Veriler “keşif” vs veriler “meraklanma” / “işkence”?
Çoğu zaman "veri gizliliği" ( örneğin eğlenceli bir örnek ) hakkında gayri resmi uyarılarla karşılaştım ve bunun ne anlama geldiği ve neden bir sorun olabileceği konusunda sezgisel bir fikrim olduğunu düşünüyorum. Öte yandan, "keşifsel veri analizi" istatistiklerde mükemmel bir şekilde saygıdeğer bir prosedür gibi görünmektedir, en azından bu başlığa sahip …

4
Dizeleri ayrıştırmak için makine öğrenme teknikleri?
Çok fazla adres dizgim var: 1600 Pennsylvania Ave, Washington, DC 20500 USA Onları bileşenlerine göre ayrıştırmak istiyorum: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Ancak elbette veriler kirli: birçok ülkede birçok dilde geliyor, farklı şekillerde yazılmış, yazım hataları var, eksik parçalar var, fazladan önemsiz şeyler …

3
Verileri işlemden ayıran bir dağılım grafiği oluşturmak için R'yi kullanmanın iyi bir yolu nedir?
Genel olarak R ve istatistikler konusunda çok yeniyim, ancak kendi yerel kapasitelerinin ötesinde olabileceğini düşündüğüm bir dağılım çizmem gerekiyor. Birkaç gözlem vektörüne sahibim ve onlarla bir dağılım grafiği oluşturmak istiyorum ve her bir çift üç kategoriden birine giriyor. Her kategoriyi renkli veya sembolle ayıran bir saçılma grafiği yapmak istiyorum. Bunun …

5
Örnekleme dağılımını öğretme stratejileri
Tl; dr sürümü Örnekleme dağılımını (örneğin ortalama bir örnek olarak) giriş seviyesi bir lisans düzeyinde öğretmek için hangi başarılı stratejileri kullanıyorsunuz? Arkaplan Eylül ayında , David Moore tarafından Temel İstatistik Uygulaması'nı kullanan ikinci sınıf sosyal bilimler (temel olarak siyaset bilimi ve sosyoloji) öğrencileri için tanıtım istatistiği dersi vereceğim . Bu …

3
Hakemli açık kaynaklı dergi için tavsiye?
Tek bir ortalama hipotezini test etmek için bir bootstrap metodu ile ilgili bir el yazması var ve onu yayın için göndermek istiyorum, ama ahlaki bir ikilemim var. Elsevier'e karşı etik dışı iş uygulamalarını protesto etmek için imza atmıştım ve bu konuyu okumak, diğer kâr amacı gütmeyen akademik dergilerin etiğini sorgulamamı …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.