İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

6
Neden “uzakta anlatmak” sezgisel bir anlam ifade ediyor?
Geçenlerde " açıklamak " adlı olasılıksal bir akıl yürütme ilkesini öğrendim ve bunun için bir sezgiyi kavramaya çalışıyorum. Bir senaryo kurmama izin verin. Bir depremin meydana geldiği olay olsun . olayının, neşeli yeşil devin şehir etrafında dolaştığı olay olmasına izin verin . , yerin sarsıldığı olay olsun . Let . …

4
Nerede
aşağıdaki gibi merkezi sınırlı teoremin çok basit bir sürümü ki Lindeberg – Lévy CLT'dir. Neden sol tarafta bir olduğunu anlamıyorum . Ve Lyapunov CLT ama neden değil ? Birisi bana bu faktörlerin neler olduğunu söyler mi, ve ? onları teoremi nasıl alırız?n−−√((1n∑i=1nXi)−μ) →d N(0,σ2)n((1n∑i=1nXi)−μ) →d N(0,σ2) \sqrt{n}\bigg(\bigg(\frac{1}{n}\sum_{i=1}^n X_i\bigg) - \mu\bigg)\ …

3
> 50K değişkenleriyle Kement veya sırt regresyonundaki büzülme parametresi nasıl tahmin edilir?
50.000'den fazla değişkenli bir modelde Kement veya ridge regresyon kullanmak istiyorum. Bunu R'deki yazılım paketini kullanarak yapmak istiyorum. Büzülme parametresini ( ) nasıl tahmin edebilirim ?λλ\lambda Düzenlemeler: İşte anladığım nokta: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = T) X <- matrix(Xv, nrow = 1000, …

3
Yüksek lisans programları hakkında göz önünde bulundurulması gerekenler istatistikler
Lisansüstü okullar için kabul mevsimidir. Ben (ve benim gibi birçok öğrenci) şimdi hangi istatistik programının seçileceğine karar vermeye çalışıyorum. İstatistiklerle çalışanların istatistikteki yüksek lisans programları hakkında dikkate aldığımızı önerdiği bazı şeyler nelerdir? Öğrencilerin yaptıkları ortak tuzaklar veya hatalar var mı (belki de okul itibarı ile ilgili olarak)? İstihdam için, uygulamalı …

2
Yapışkanlı olmayan Gauss değişkenlerinin toplamının dağılımı nedir?
Eğer dağıtılan , dağıtılır ve , biliyorum dağıtılır eğer X ve Y bağımsızsa.XXXN(μX,σ2X)N(μX,σX2)N(\mu_X, \sigma^2_X)YYYN(μY,σ2Y)N(μY,σY2)N(\mu_Y, \sigma^2_Y)Z=X+YZ=X+YZ = X + YZZZN(μX+μY,σ2X+σ2Y)N(μX+μY,σX2+σY2)N(\mu_X + \mu_Y, \sigma^2_X + \sigma^2_Y) Fakat eğer X ve Y bağımsız değilse, yani (X,Y)≈N((μXμY),(σ2XσX,YσX,Yσ2Y))(X,Y)≈N((μXμY),(σX2σX,YσX,YσY2))(X, Y) \approx N\big( (\begin{smallmatrix} \mu_X\\\mu_Y \end{smallmatrix}) , (\begin{smallmatrix} \sigma^2_X && \sigma_{X,Y}\\ \sigma_{X,Y} && \sigma^2_Y \end{smallmatrix}) \big) toplamının …


4
Toplam katsayıların toplamı = 1 olsun, R'de sınırlı bir regresyona nasıl uyurum?
Burada benzer bir kısıtlı regresyon görüyorum: Belirli bir noktadan sınırlandırılmış doğrusal regresyon ama ihtiyacım biraz farklı. 1'e eklenmesi gereken katsayılara ihtiyacım var. Özellikle, 1 döviz serisinin getirilerini diğer 3 döviz serisine karşı geri çeviriyorum, böylece yatırımcılar bu seriye maruz kaldıklarını diğer 3'e maruz bırakma kombinasyonuyla değiştirebilirler. nakit harcama değişmemelidir ve …
36 r  regression 

5
Veri madenciliğinde kaldırma ölçüsü
Tam olarak ne yapacağını bilmek için pek çok web sitesi aradım? Tüm bulduğum sonuçlar, onu kendinde değil uygulamalarda kullanmakla ilgiliydi. Destek ve güven fonksiyonunu biliyorum. Wikipedia'dan veri madenciliğinde asansör, bir modelin vakaları öngörme veya sınıflandırmadaki ve rastgele seçim modeline göre ölçen performansının bir ölçüsüdür. Ama nasıl? Güven * desteği asansörün …

3
Rastgele ormanlardaki oylardan bir “kesinlik puanı” oluşturmak?
Ben ayrımı edecek bir sınıflandırıcı eğitmek için arıyorum Type Ave Type Bhangi yaklaşık yarısını, yaklaşık 10.000 nesnelerin oldukça geniş bir eğitim seti ile nesneleri Type Aolmak üzere yarısı Type B. Veri kümesi, hücrelerin fiziksel özelliklerini (boyut, ortalama yarıçap vb.) Ayrıntılandıran 100 sürekli özellikten oluşur. Verilerin çift saçılım ve yoğunluk grafiklerinde …

5
R zamanlama fonksiyonları [kapalı]
Bir fonksiyonun çalışmasını tekrarlamak için gereken süreyi ölçmek istiyorum. replicate()For-döngüler eşdeğer mi ve kullanıyor mu? Örneğin: system.time(replicate(1000, f())); system.time(for(i in 1:1000){f()}); Tercih edilen yöntem hangisidir. Çıktısında system.time()olduğu sys+userprogramı çalıştırmak için gerçek CPU zamanı? elapsedProgramın zaman performansının iyi bir ölçüsü mü ?
36 r 

8
Hangi koşullar altında çoklu seviye / hiyerarşik analiz kullanılmalı?
Hangi koşullar altında birisi daha temel / geleneksel analizlerin (örneğin, ANOVA, OLS regresyon vb.) Aksine çok düzeyli / hiyerarşik analiz kullanmayı düşünmelidir? Bunun zorunlu olarak kabul edilebileceği durumlar var mı? Çok düzeyli / hiyerarşik analiz kullanmanın uygun olmadığı durumlar var mı? Son olarak, yeni başlayanlar için çok düzeyli / hiyerarşik …

10
En sevdiğin mesleğin zor bir istatistiksel kavram için açıklaması nedir?
Gerçekten karmaşık sorunlara basit açıklamalar duymaktan zevk alıyorum. Zor bir istatistiksel kavramı açıklayan en sevdiğiniz analojiniz veya anekdotunuz hangisidir? En sevdiğim, Murray'in bir sarhoş ve köpeği kullanarak eşbütünleşme açıklaması. Murray, iki rastgele işlemin (bir gezinti sarhoş ve köpeği Oliver) nasıl birim köklere sahip olabileceğini, ancak ortak ilk farkları durağan olduğu …

4
Sinir ağım iyi genelleşmiyorsa ne yapmalıyım?
Sinir ağını eğitiyorum ve eğitim kaybı azaldı, ancak doğrulama kaybı çok benzer mimarilere ve verilere sahip referanslara veya deneylere dayanarak beklediğimden çok daha az değil veya azalıyor. Bunu nasıl düzeltebilirim? Soru gelince Sinir ağım öğrenemediğinde ne yapmalıyım? Bu sorunun ilham aldığı soru genel olarak bırakılmıştır, böylece bir sinir ağının genelleme …


2
Glmnet nasıl yorumlanır?
Yaklaşık 60 prediktör değişkenli ve 30 gözlemli çok değişkenli bir lineer regresyon modeline uymaya çalışıyorum, bu yüzden p> n olduğu için düzenli regresyon için glmnet paketini kullanıyorum . Belgelendirme ve diğer sorulardan geçtim ama sonuçları yine de yorumlayamıyorum, işte örnek bir kod (basitleştirmek için 20 öngörücü ve 10 gözlemle): Num …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.