İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

1
L1 regülasyonunda regresyon Lasso ile aynı, L2 regülasyonunda regresyon regresyonuyla aynı mı? Ve “Kement” nasıl yazılır?
Makine öğrenmeyi öğrenen bir yazılım mühendisiyim, özellikle Andrew Ng'nin makine öğrenim kursları aracılığıyla . Düzenlemeyle doğrusal regresyon çalışırken , kafa karıştırıcı terimler buldum: L1 düzenlenmesi veya L2 düzenlenmesi ile regresyon KEMENT Ridge regresyonu Yani benim sorularım: L1 düzenlileşmesi ile yapılan regresyon, LASSO ile tamamen aynı mıdır? L2 düzenlileşmesi ile regresyon …

1
Yükseltme için göreceli değişken önemi
Göreceli değişken öneminin aşırı genel / basit olmayan Gradient Boostted Trees içinde nasıl hesaplandığına dair bir açıklama arıyorum: Ölçümler, bir değişkenin bölünme için seçilme sayısına dayanır, her bölünmenin sonucu olarak karenin iyileştirilmesiyle ağırlıklandırılır ve tüm ağaçların ortalaması alınır . [ Elith ve diğ. 2008, Regresyon ağaçlarının güçlendirilmesi için bir çalışma …


3
Rastgele ormanlar aykırı değerlere nasıl duyarlı değildir?
Ben dahil olmak üzere birkaç kaynaklardan okudum bu bir Rastgele Ormanlar (örneğin, Lojistik Regresyon ve diğer ML yöntemlerdir bu şekilde) uçlara karşı duyarlıdır olmadığını. Ancak iki sezgi bana aksini söylüyor: Bir karar ağacı ne zaman yapılırsa, bütün puanların sınıflandırılması gerekir. Bu, aykırıların bile sınıflandırılacağı ve dolayısıyla yükseltme sırasında seçildikleri karar …


2
Doğrusal regresyonda güven bantlarının şeklini ve hesaplamasını anlama
Bir OLS doğrusal regresyonu ile ilişkili kavisli şekilli güven bantlarının kökenini ve regresyon parametrelerinin (eğim ve kesişme) güven aralıklarıyla nasıl ilişkili olduğunu anlamaya çalışıyorum, örneğin (R kullanarak): require(visreg) fit <- lm(Ozone ~ Solar.R,data=airquality) visreg(fit) Grubun,% 2,5 kesmeyle ve% 97,5 eğim ile hesaplanan çizgilerin sınırları ile,% 97,5 kesmeyle ve% 2,5 eğim …

3
Gizli Markov modelleri ve koşullu rasgele alanlar arasındaki sezgisel fark
HMM'lerin (Gizli Markov Modelleri) üretken modeller olduğunu ve CRF'nin ayırt edici modeller olduğunu anlıyorum. Ayrıca CRF'lerin (Koşullu Rastgele Alanlar) nasıl tasarlandığını ve kullanıldığını da biliyorum. Anlamadığım şey, bunların HMM'lerden farklı olmaları mı? HMM durumunda, sadece bir sonraki durumumuzu önceki düğümde, mevcut düğümde ve geçiş olasılığına göre modelleyebildiğimizi okudum, ancak CRF'ler …


2
Önyükleme yöntemi için önerilen örneklem boyutunun belirlenmesi / Önerilen Yöntem
Bunun kimsenin gerçekten basit bir cevap veremediği çok sıcak bir konu olduğunu biliyorum. Bununla birlikte, aşağıdaki yaklaşımın faydalı olup olmayacağını merak ediyorum. Önyükleme yöntemi yalnızca, örneğin orijinal popülasyonla aynı dağılımı en az veya daha az takip ederse (tam olarak okuyun) kullanışlıdır. Emin olmak için bu, örnek büyüklüğünüzü yeterince büyük yapmanız …

5
Bilgi kazanımı, karşılıklı bilgi ve ilgili önlemler
Andrew More bilgi kazancını şöyle tanımlar : IG(Y|X)=H(Y)−H(Y|X)IG(Y|X)=H(Y)−H(Y|X)IG(Y|X) = H(Y) - H(Y|X) burada olan koşullu entropi . Ancak, Wikipedia yukarıdaki miktar karşılıklı bilgileri çağırır .H(Y|X)H(Y|X)H(Y|X) Vikipedi, bilgi kazancını iki rastgele değişken arasındaki Kullback – Leibler ayrıntısı (aka bilgi ayrışması veya göreceli entropi) olarak tanımlar : DKL(P||Q)=H(P,Q)−H(P)DKL(P||Q)=H(P,Q)−H(P)D_{KL}(P||Q) = H(P,Q) - H(P) …



1
Posterior prediktif kontroller nelerdir ve bunları faydalı yapan nedir?
Posterior kestirim dağılımının ne olduğunu anlıyorum ve posterior kestirim kontrolleri hakkında okudum , ancak henüz ne yaptığım henüz net değil. Posterior prediktif kontrol tam olarak nedir? Bazı yazarlar neden posterior öngörücü kontroller yapmanın “verileri iki kez kullanmak” olduğunu ve kötüye kullanılmaması gerektiğini söylüyor? (ya da Bayesian olmadığını bile)? (örneğin bkz …

4
Tanh neden bir aktivasyon işlevi olarak neredeyse her zaman sigmoidlerden daha iyidir?
Andrew Ng'un Yapay Sinir Ağları ve Coursera'daki Derin Öğrenme kursunda kullanmanın neredeyse her zaman kullanmanın tercih edildiğini söylüyor .tanhtanhtanhsigmoidsigmoidsigmoid O verir nedeni çıkışları kullanarak olmasıdır daha etrafında 0 ziyade merkezi 'ın 0.5, ve bu 'biraz daha kolay bit sonraki katman için öğrenme yapar'.tanhtanhtanhsigmoidsigmoidsigmoid Aktivasyonun çıkış hızını merkezlemek neden öğreniyor? Sanırım …

2
Kısmi en küçük kareler regresyonunun arkasındaki teori
SVD ve PCA'yı anlayan biri için kısmi en küçük kareler regresyonunun (çevrimiçi olarak erişilebilir) arkasındaki teorinin iyi bir şekilde açıklanmasını tavsiye edebilir miyim? Çevrimiçi olarak birçok kaynağa baktım ve doğru titizlik ve erişilebilirlik kombinasyonuna sahip hiçbir şey bulamadım. İçine baktım İstatistiksel Öğrenme Elements üzerine sorulan bir soru üzerine yorumunda öne …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.