İstatistikler ve Büyük Veri

16

Normallik testi 'esasen işe yaramaz mı'?

Eski bir meslektaşım bir keresinde bana şöyle tartışmıştı: Normalde, null altında sadece asimptotik veya neredeyse normal olan rastgele değişkenler üreten (nihayetinde büyük yapamayacağımız miktarlara bağlı 'asimptotik' kısmı olan) süreçlerin sonuçlarına normalite testleri uygularız ; Ucuz bellek, büyük veri ve hızlı işlemciler çağında, normallik testleri, büyük (delicesine büyük olmasa da) örnekler …

298 hypothesis-testing normality-assumption philosophical

7

Çoklu regresyon yaparken, yordayıcı değişkenlerinizi ne zaman merkezlemelisiniz ve ne zaman standartlaştırmalısınız?

Bazı literatürde, eğer farklı birimlerde standartlaştırılmışsa, birden fazla açıklayıcı değişkenli bir regresyonun okudum. (Standartlaştırma ortalamanın çıkarılması ve standart sapmanın bölünmesine dayanır.) Verilerimi başka hangi durumlarda standartlaştırmam gerekir? Verilerimi yalnızca ortalamam gereken durumlar var mı (yani standart sapmalara bölünmeden)?

281 multiple-regression standardization centering

9

Sabit efekt, rastgele efekt ve karma efekt modelleri arasındaki fark nedir?

Basit bir ifadeyle, sabit etki, rastgele etki ve karma etki modelleri arasındaki farkı nasıl açıklarsınız (belki de basit örneklerle)?

267 mixed-model random-effects-model definition fixed-effects-model

6

Veriler 0-1 aralığına nasıl normalleştirilir?

Normalleşmede kayboldum, biri bana yol gösterebilir mi, lütfen. Sırasıyla -23.89 ve 7.54990767 gibi minimum ve maksimum değerlere sahibim. 5.6878 değerine sahipsem, bu değeri 0 ile 1 arasında nasıl ölçeklendirebilirim.

265 normalization

11

Serbestlik dereceleri nasıl anlaşılır?

Gönderen Vikipedi , bir istatistik serbestlik derecesi üç yorumlar vardır: İstatistiklerde, serbestlik derecelerinin sayısı, değişmeden serbest olan bir istatistiğin son hesaplamasındaki değerlerin sayısıdır . İstatistiksel parametrelerin tahminleri, farklı miktarlarda bilgi veya verilere dayanabilir. Bir parametrenin tahminine giren bağımsız bilgi sayısına serbestlik derecesi (df) denir. Genel olarak, bir parametrenin bir tahmini …

257 interpretation degrees-of-freedom intuition

30

Ünlü istatistiksel alıntılar

En sevdiğiniz istatistiksel alıntı nedir? Bu topluluk wiki, bu yüzden lütfen cevap başına bir teklif.

248 references history

16

İstatistiksel testlerde p değerleri ve t değerlerinin anlamı nedir?

Bir istatistik kursu aldıktan ve diğer öğrencilere yardım etmeye çalıştıktan sonra, çok fazla kafa yordamı uyandırmaya ilham veren bir konuyu istatistiksel hipotez testlerinin sonuçlarını yorumlamakta olduğunu fark ettim. Öğrencilerin, belirli bir test için gereken hesaplamaları nasıl yapabileceklerini kolayca öğrendikleri, ancak sonuçları yorumlamada takıldıkları anlaşılmaktadır. Birçok bilgisayarlı araç test sonuçlarını "p …

246 hypothesis-testing p-value interpretation intuition canonical-question

7

Makine öğrenmesinde torbalama, güçlendirme ve istifleme

Bu 3 yöntem arasındaki benzerlik ve farklar nelerdir: torbalama, Arttırılması, İstifliyorsun? En iyisi hangisi? Ve neden? Bana her biri için bir örnek verebilir misiniz?

245 machine-learning boosting ensemble bagging model-averaging

11

Markov Zinciri Monte Carlo'yu (MCMC) bir uzmana nasıl açıklarsınız?

Belki kavramı, neden kullanıldığı ve bir örnek.

240 bayesian mcmc intuition teaching

8

Öklid mesafesi neden yüksek boyutlarda iyi bir ölçüm değildir?

'Öklid mesafesinin yüksek boyutlarda iyi bir mesafe olmadığını' okudum. Sanırım bu ifadenin boyutluluk laneti ile bir ilgisi var, ama tam olarak ne? Ayrıca 'yüksek boyutlar' nedir? 100 özelliği olan Öklid mesafesini kullanarak hiyerarşik kümeleme uyguluyorum. Bu ölçümü kullanmak kaç özelliğe kadar 'güvenli'?

239 machine-learning clustering distance-functions metric high-dimensional

2

R'nin lm () çıktısının yorumlanması

R’deki yardım sayfaları, bu sayıların ne anlama geldiğini bildiğimi varsayıyor ama bilmiyorum. Buradaki her sayıyı sezgisel olarak anlamaya çalışıyorum. Çıktısını göndereceğim ve ne bulduğuma dair yorum yapacağım. Varsayıp yazacağım gibi hatalar olabilir (irade). Temel olarak katsayılardaki t-değerinin ne anlama geldiğini ve neden artık standart hatayı yazdırdıklarını bilmek istiyorum. Call: lm(formula …

234 r regression interpretation

6

yararlı mı yoksa tehlikeli mi?

İçinden Aşırıyordu bir Özetler (özellikle, Bölüm 2.1.1'de Cosma Shalizi ile ikinci ders ) ve çok düşük alabilirsiniz hatırlatılarak , bir tam olarak doğrusal olmadığı zaman bile.R2R2R^2 Shalizi örneğini aktaracak olursak: Eğer bir modeli olduğunu varsayalım , bilinir. Sonra ve açıklanan varyans miktarı bir ^ 2 \ Var [X] , böylece …

233 regression r-squared

9

Bir güven aralığı ile güvenilir bir aralık arasındaki fark nedir?

Joris ve Srikant'ın buradaki takası , güven aralıkları ve güvenilir aralıklar arasındaki farka dair içsel açıklamalarımın doğru olup olmadığını merak ettim (yine). Farkı nasıl açıklarsınız?

229 bayesian confidence-interval frequentist credible-interval fiducial

5

AUC neyi temsil ediyor ve bu nedir?

Yüksek ve düşük arandı ve AUC'nin tahmin ile ilgili olarak ne anlama geldiğini veya ne anlama geldiğini bulamadık.

228 classification prediction roc auc abbreviation

12

Neden bir% 95 Güven Aralığı (CI) ortalamayı içeren bir% 95 şans anlamına gelmiyor?

Buradaki çeşitli ilgili sorularla, "% 95 güven aralığı" dediğimiz şeyin "% 95" bölümünün, örnekleme ve CI-hesaplama prosedürlerimizi birçok kez tam olarak çoğaltacak olmamız gerektiği anlamına geldiği konusunda fikir birliği olduğu anlaşılıyor. Bu şekilde hesaplanan CI'lerin% 95'i popülasyon ortalamasını içerecektir. Ayrıca, bu tanımın yapmaması konusunda fikir birliği var gibitek bir% 95 …

228 probability confidence-interval sampling mean population