İstatistikler ve Büyük Veri

6

R - istatistiklerine ait referans kitabı var mı ve ne içermelidir?

Arka fon Bununla ilgili çok fazla tartışma var, bu yüzden cevabımı StackExchange'in önceki ihalelerinden ve öfkeyle googling yaparak bulabileceğimi düşündüm. R ile (biyo) istatistikler için sadece bir referans kitabı bulmaya çalışırken yarım gün kullandıktan sonra, kafam tamamen karıştı ve pes etmek zorunda kaldım. Belki bir araya getirilen ücretsiz materyal aslında …

25 r references

2

Yumuşatma eğrileri ile yumuşatma için aşınmayı karşılaştırmak?

Bir eğriyi yumuşatmak için boşluk veya düzleme yayları kullanmanın artılarını / eksilerini daha iyi anlamak istiyorum. Sorumun başka bir varyasyonu da, loess kullanmakla aynı sonuçları verecek şekilde bir düzleştirme spline inşa etmenin bir yolu olup olmadığıdır. Herhangi bir referans veya içgörü memnuniyetle karşılanmaktadır.

25 regression splines loess

4

Ziliak (2011) p-değerlerinin kullanımına karşı çıkıyor ve bazı alternatiflerden bahsediyor; Onlar neler?

Denilen sonuç çıkarımı p-değeri, güvenmek dezavantajları tartışırken son makalesinde ". Matrixx v Siracusano ve Öğrenci v yargılanan Fisher İstatistiksel önem" (DOI: 10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak, p değerlerinin kullanılmasına karşı çıkıyor. Sonuç paragraflarında şöyle diyor: Veriler zaten bildiğimiz ve kesin olan tek şey. Aslında bilmek istediğimiz şey oldukça farklı …

25 r hypothesis-testing statistical-significance bayesian p-value

5

Neden basit bir ızgara yerine Monte Carlo yöntemini kullanmalı?

Bir işlevi bütünleştirirken veya karmaşık simülasyonlarda, Monte Carlo yönteminin yaygın olarak kullanıldığını gördüm. Kendime neden birinin rastgele noktalar çizmek yerine bir işlevi bütünleştirmek için bir nokta ızgarası oluşturmadığını soruyorum. Bu daha kesin sonuçlar getirmez mi?

25 monte-carlo

2

Kalman filtresi ve hareketli ortalama arasındaki fark nedir?

Çok basit bir Kalman filtresi (rastgele yürüyüş + gürültü modeli) hesaplıyorum. Filtrenin çıktısının hareketli ortalamaya çok benzer olduğunu buldum. İkisi arasında bir denklik var mı? Değilse, fark nedir?

25 kalman-filter

1

Profil olasılığına göre güven aralıkları oluşturmak

Benim ilkokul istatistikte Tabii ki nüfus ortalama olarak böyle aralığı% 95 güven inşa etmek öğrendim μμ\mu dayalı asimptotik normallik "büyük" örnek boyutları için. Bunun dışında yöntem yeniden örnekleme (örneğin, ön-yükleyici olarak), dayalı bir başka yaklaşım yoktur "profil olasılığı" . Birisi bu yaklaşımı açıklayabilir mi? Hangi durumlarda, asimptotik normalliğe ve profil …

25 confidence-interval profile-likelihood

7

Cinsiyet neden tipik olarak 1/2 yerine 0/1 olarak kodlanır?

Veri analizi için kodlamanın mantığını anlıyorum. Aşağıdaki sorum belirli bir kodun kullanımı ile ilgili. Cinsiyetin genellikle kadınlar için 0, erkekler için 1 olarak kodlanmasının bir nedeni var mı? Bu kodlama neden 'standart' olarak kabul ediliyor? Bunu Female = 1 ve Male = 2 ile karşılaştırın. Bu kodlamada bir sorun mu …

25 data-transformation binary-data categorical-encoding units

4

Model belirsizliğini ele almak

CrossValidated toplumundaki Bayesanların model belirsizlik problemini nasıl gördüklerini ve bununla nasıl başa çıkmayı tercih ettiklerini merak ediyordum ? Sorumu iki bölümden ortaya çıkarmaya çalışacağım: Model belirsizliği ile (deneyiminize / görüşünüze göre) ne kadar önemli? Makine öğrenen topluluğunda bu konuyla ilgili herhangi bir makale bulamadım, bu yüzden sadece nedenini merak ediyorum. …

25 machine-learning bayesian model-selection

2

Ne zaman * olmamalı * MLE için R'nin nlm fonksiyonunu kullanmalıyım?

Maksimum olasılık tahmini için R's nlm kullandığımı öne süren birkaç rehbere rastladım. Ancak hiçbiri ( R'nin dokümantasyonu dahil ), bu fonksiyonu ne zaman kullanacağınız veya kullanmayacağınız konusunda çok teorik rehberlik yapmaz. Söyleyebileceğim kadarıyla, nlm Newton'un metodunun çizgileri boyunca sadece gradyan iniş yapıyor. Bu yaklaşımı kullanmanın makul olduğu zamanlar için prensipler …

25 r maximum-likelihood

3

Bir gözlem verilen varyans için Güven Aralığı

Bu, "Olasılık Teorisinde 7. Kolmogorov Öğrenci Olimpiyatı" nın bir sorunu: Bir gözlem verilen bir gelen her iki parametre bilinmeyen ile dağıtımı için bir güven aralığını elde , en az% 99 güven aralığı ile.XXXNormal(μ,σ2)Normal⁡(μ,σ2)\operatorname{Normal}(\mu,\sigma^2)σ2σ2\sigma^2 Bana öyle geliyor ki bu imkansız olmalı. Çözüm bende, ancak henüz okumadım. Düşüncesi olan var mı? Birkaç …

25 probability normal-distribution confidence-interval variance

6

Dağılımları karşılaştırmak için iyi veri görselleştirme teknikleri nelerdir?

Doktora tezimi yazıyorum ve dağıtımları karşılaştırmak için aşırı derecede kutulara dayandığımı anladım. Bu görevi başarmak için başka hangi alternatifleri seviyorsunuz? Ayrıca, veri görselleştirmesi konusunda farklı fikirler ile kendime ilham verebileceğim R galeriden başka bir kaynak biliyor musunuz diye sormak istiyorum.

25 r distributions data-visualization boxplot relative-distribution

2

PCA çoklu bağlantı altında kararsız mı?

Bir regresyon durumunda, bir dizi yüksek korelasyonlu değişkeniniz varsa, bunun tahmin edilen katsayılardaki dengesizlikten dolayı genellikle "kötü" olduğunu biliyorum (varyans belirleyici sıfıra giderken sonsuzluğa gider). Sorum şu, “kötülüğün” bir PCA durumunda da devam edip etmeyeceği. Herhangi bir PC için katsayılar / yükler / ağırlıklar / özvektörler kovaryans matrisi tekil hale …

25 pca multicollinearity

2

Genel Doğrusal Model - Genelleştirilmiş Doğrusal Model (bir kimlik link fonksiyonu ile?)

Bu benim ilk gönderim, bu yüzden bazı standartlara uymuyorsam, lütfen beni rahatlat! Sorumu araştırdım ve hiçbir şey çıkmadı. Benim sorum çoğunlukla genel doğrusal modelleme (GLM) ve genelleştirilmiş doğrusal modelleme (GZLM) arasındaki pratik farklar ile ilgilidir. Benim durumumda değişkenler olarak birkaç sürekli değişken ve GZLM'ye karşı ANCOVA'da birkaç faktör olacaktır. Her …

25 modeling linear-model

3

Beyaz gürültü süreci nedir?

Sezgisel ve anlaşılması kolay olan beyaz gürültü sürecini tanımlamanın en iyi yolu nedir?

25 time-series

4

İstatistik işbirliği

Bir biyolog olarak, bir noktada üzerinde çalıştığım araştırma projelerinin birçoğu, basit bir tavsiye için mi yoksa verilerim için bir modelin uygulanması ve test edilmesi için bir istatistikçi ile işbirliğini içeriyor. İstatistik meslektaşlarım, önemli bir işbirliği yaptıklarını itiraf ediyorlar, kiracılık incelemesi sürecinin yalnızca ilk veya son yazar olduğu makaleleri dikkate aldığına …

25 academia