İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

2
R'deki lmer () karışık etki modeli için tahmin aralığı
Bir lmer () modelinden bir tahmin çevresinde bir tahmin aralığı almak istiyorum. Bununla ilgili bazı tartışmalar buldum: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq fakat rastgele etkilerin belirsizliğini hesaba katmamış gibi görünüyorlar. İşte özel bir örnek. Altın balıkla yarışıyorum. Son 100 yarış hakkında verilerim var. RE tahminlerimin ve FE tahminlerinin belirsizliğini dikkate alarak 101'ini tahmin …

3
SVM ve lojistik regresyonun karşılaştırılması
Birisi lütfen SVM veya LR'yi ne zaman seçeceğiniz konusunda bana biraz fikir verebilir mi? İlgili amaçların aşağıdaki gibi olduğu ikisinin hiper düzlemini öğrenme optimizasyon kriterleri arasındaki farkın arkasındaki sezgiyi anlamak istiyorum: SVM: En yakın destek vektörleri arasındaki marjı maksimize etmeye çalışın LR: Arka sınıf olasılığını maksimuma çıkarın Hem SVM hem …

6
Birçok kategorik değişkenle sınıflandırmayı iyileştirin
200.000'den fazla örnek ve bir örnek başına yaklaşık 50 özellik içeren bir veri kümesi üzerinde çalışıyorum: 10 sürekli değişken ve diğerleri ~ 40 kategorik değişkenlerdir (ülkeler, diller, bilimsel alanlar vb.). Bu kategorik değişkenler için, örneğin 150 farklı ülke, 50 dil, 50 bilimsel alan vb. Var. Şimdiye kadar benim yaklaşımım: Mümkün …

2
Faktör Analizi, PCA varyansını açıklarken kovaryansı nasıl açıklar?
Piskopos'un "Örüntü Tanıma ve Makine Öğrenmesi" kitabından alıntı, bölüm 12.2.4 "Faktör analizi": Vurgulanan kısma göre, faktör analizi W matrisindeki değişkenler arasındaki kovaryansı yakalarWWW . NASIL merak ediyorum ? İşte nasıl anladım. Ki xxx görülmektedir ppp , boyutlu değişken WWW faktörü yükleme matrisidir ve zzz faktör skoru vektörüdür. Sonra değerine sahibiz …

8
Düğünüme kaç kişinin geleceğini hesaplamama yardım et! Her kişiye bir yüzde atayabilir ve ekleyebilir miyim?
Ben düğünümü planlıyorum. Düğünüme kaç kişinin geleceğini tahmin etmek istiyorum. İnsanların bir listesini ve yüzde olarak katılma şansını yarattım. Örneğin Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30% Yüzde yaklaşık 230 kişilik bir listem var. Düğünüme kaç kişinin katılacağını nasıl tahmin edebilirim? Sadece yüzdeleri toplayıp 100'e …

4
Matematikte güçlü bir geçmiş ML için toplam bir gereklilik midir?
Kendi beceri setimi geliştirmek istemeye başladım ve her zaman makine öğrenmekten çok etkilendim. Ancak, bunu yapmak yerine altı yıl önce, bilgisayar bilimi ile tamamen alakasız bir derece almaya karar verdim. Yaklaşık 8-10 yıldır yazılım ve uygulamalar geliştiriyorum, bu yüzden iyi bir tutuma sahibim ancak makine öğreniminin / olasılıklarının / istatistiklerinin …

2
R'de yarı sinüzoidal model için uygun olanı nasıl bulabilirim?
Baltık Denizi'nin deniz yüzeyinin sıcaklığının her yıl aynı olduğunu varsaymak istiyorum, sonra bunu bir fonksiyon / doğrusal modelle tanımlamak istiyorum. Benim düşüncem, yılı bir ondalık sayı olarak girmek (ya da num_months / 12) ve sıcaklığın o zaman ne olacağı hakkında bilgi almaktı. R'deki lm () fonksiyonuna atıldığında, sinüzoidal verileri tanımıyor, …
37 r  regression  time-series  lm 

10
İstatistikler veya makine öğrenimi hakkında herhangi bir popüler bilim kitabı var mı?
Etrafında gerçek bilim ile ilgilenen popüler bilim kitaplarının yanı sıra, güncel teorilerin ardındaki tarih ve sebeplerin yanı sıra okumak oldukça zevkli kalıyor. Örneğin, James Gleick (kaos, fraktallar, doğrusal olmayan) tarafından "Kaos", Stephen Hawking ("fizik, evrenin kökeni, zaman, karadelikler)" veya "Zamanın kara tarihi" Richard Richardkins ("Bencil Gen") evrim ve doğal seleksiyon). …

3
SVM, Overfitting, boyutsallık laneti
Veri setim küçük (120 örnek), ancak özelliklerin sayısı büyük (1000-200.000) arasında değişiyor. Özellik alt kümesini seçmek için özellik seçimi yapmama rağmen, yine de uygun olabilir. İlk sorum şu, eğer SVM, eğer varsa, aşırı yüklenmeyi nasıl ele alıyor? İkincisi, sınıflandırma durumunda fazladan takma hakkında daha fazla çalıştıkça, az sayıda özelliğe sahip …


6
Bayesçiye karşı sıkça yorum yapan Olasılık
Birisi Bayesan ve sıklığa yaklaşma yaklaşımı arasındaki farklılıkları iyi anlayabilir mi? Anladığım kadarıyla: Araştırmacılar görüşü, verinin belirli bir frekans / olasılık ile (deneme sayısının sonsuzluğa yaklaştığı bir olayın göreceli frekansı olarak tanımlanır) olan tekrarlanabilir rastgele bir örnek (rastgele değişken) olduğu yönündedir. Temel parametreler ve olasılıklar bu tekrarlanabilir işlemi sırasında ve …

6
Anlamlılık testi için hipotez olarak etki büyüklüğü
Bugün, Çapraz Validated Journal Club'da (neden orada değildin?), @Mbq sordu: Biz (modern veri bilimcileri) öneminin ne anlama geldiğini bildiğimizi düşünüyor musunuz? Ve sonuçlarımıza olan güvenimizle nasıl bir ilgisi var? @Michelle bazılarının (ben dahil) genellikle cevap verdiği gibi: Önemlilik kavramını (p-değerlerine dayanarak) kariyerime devam ettikçe daha az faydalı buluyorum. Örneğin, son …

10
En kullanışlı ekonomi verileri kaynakları nelerdir?
Ekonomi’de araştırma yaparken, gerçek verilerle ilgili teorik sonuçları doğrulamak gerekir. Kullanmak ve alıntı yapmak için güvenilir veri kaynakları nelerdir? Ağırlıklı olarak GSYİH, nüfus, TÜFE, ÜFE vb. Çeşitli istatistiksel veriler sağlayan kaynaklarla ilgileniyorum. EDIT: İşte bu konuya görünen bağlantıların bir araya geldiğini + bir kaç tane daha hatırladım. Genel: - Thomson …
37 references 

3
Dönüştürülen değişkenin yoğunluğu için sezgisel açıklama?
pdf ile rastgele bir değişken olduğunu varsayalım . Sonra rasgele değişkeni pdf’e sahiptir.XXXfX(x)fX(x)f_X(x)Y=X2Y=X2Y=X^2 fY(y)={12y√(fX(y√)+fX(−y√))0y≥0y<0fY(y)={12y(fX(y)+fX(−y))y≥00y<0f_Y(y)=\begin{cases}\frac{1}{2\sqrt{y}}\left(f_X(\sqrt{y})+f_X(-\sqrt{y})\right) & y \ge 0 \\ 0 & y \lt 0\end{cases} Bunun arkasındaki hesabı anlıyorum. Ama hesabı bilmeyen birine anlatmanın bir yolunu düşünmeye çalışıyorum. Özellikle, neden faktörünün ön tarafta göründüğünü açıklamaya çalışıyorum . Onu bıçaklayacağım:1y√1y\frac{1}{\sqrt{y}} bir Gauss …

5
Bir sinir ağının ne yaptığını görselleştirmek / anlamak?
Yapay sinir ağları genellikle karmaşık yapıları nedeniyle "kara kutular" olarak ele alınır. Bu, ideal değildir, çünkü bir modelin şirket içinde nasıl çalıştığını sezgisel bir şekilde kavramak faydalıdır. Eğitimli bir sinir ağının nasıl çalıştığını görselleştirme yöntemleri nelerdir? Alternatif olarak, ağın kolayca sindirilebilir tanımlarını nasıl çıkarabiliriz (örn. Bu gizli düğüm öncelikle bu …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.