İstatistikler ve Büyük Veri

3

Derin Öğrenmede hiperparametreleri seçme rehberi

Yığılmış otomatik kodlayıcılar veya derin inanç ağları gibi derin bir mimarinin hiperparametrelerinin nasıl seçileceğine dair bir kılavuz vermede yardımcı olabilecek bir makale arıyorum. Çok fazla hiperparametre var ve nasıl seçileceği konusunda kafam çok karıştı. Çapraz doğrulama kullanmak da bir eğitim değil çünkü eğitim gerçekten çok zaman alıyor!

38 machine-learning deep-learning deep-belief-networks hyperparameter

1

Verilerin merkezlenmesi regresyon ve PCA'daki engellemelerden nasıl kurtulur?

Kesintiyi kaldırmak için ( bu soruda bahsedildiği gibi) verileri merkezlediğimiz örnekler (örneğin, düzenlileştirme veya PCA ile) hakkında okumaya devam ediyorum . Biliyorum basit, ama bunu sezgisel olarak anlamakta zorlanıyorum. Birisi sezgiyi verebilir veya okuyabileceğim bir referans verebilir mi?

38 regression pca centering

1

İki gaussianın ağırlıklı karışımının varyansı nedir?

Ben anlamına ile iki normal dağılımlar A ve B var ki ve μ B ve sapmalar σ A ve σ B . I ağırlıkları kullanılarak bu iki dağılımların ağırlıklı karışımını almak isteyen p ve q burada 0 ≤ p ≤ 1 ve q = 1 - s . Bu karışımın …

38 normal-distribution mixture

1

El ile hesaplanan , yeni verileri test etmek için randomForest () ile eşleşmiyor

Bunun oldukça özel bir Rsoru olduğunu biliyorum , ancak hatalı açıklanan oranındaki varyans oranını düşünüyorum . İşte gidiyor.R2R2R^2 RPaketi kullanmaya çalışıyorum randomForest. Bazı eğitim verilerim ve test verilerim var. Rastgele bir orman modeline uyduğumda, randomForestişlev test etmek için yeni test verileri girmenize olanak sağlar. Daha sonra bu yeni verilerde açıklanan …

38 r correlation predictive-models random-forest r-squared

3

Çevrimiçi vs çevrimdışı öğrenme?

Çevrimdışı ve çevrimiçi öğrenme arasındaki fark nedir ? Bu sadece veri kümesinin tamamında (çevrimdışı) veya artımlı olarak öğrenme (bir seferde bir örnek) hakkında mı? Her ikisinde de kullanılan algoritma örnekleri nelerdir?

38 machine-learning online

3

Bir özellik vektörü elde etmek için kelime gömme işlemlerini tüm belgeye uygulayın

Denetimli öğrenme ile kullanıma uygun bir belgeyi özellik vektörüne eşlemek için gömme kelimesini nasıl kullanırım? Bir kelime gömme her kelime haritalar bir vektör burada, , bazı değil çok sayıda (örneğin, 500) 'dir. Popüler kelime kalıplamaların dahil word2vec ve Eldiven .v ∈ R d dwwwv ∈ Rdv∈Rdv \in \mathbb{R}^dddd Belgeleri sınıflandırmak …

38 classification natural-language supervised-learning word2vec word-embeddings

2

A / B testleri: z-testi vs t-testi vs chi square vs fisher kesin testi

Basit bir A / B testi ile uğraşırken belirli bir test yaklaşımı seçerek nedenleri anlamaya çalışıyorum - (yani, ikili bir cevap alanlı (dönüştürülmüş veya değil) iki varyasyon / grup) Örnek olarak aşağıdaki verileri kullanacağım. Version Visits Conversions A 2069 188 B 1826 220 Üst cevap burada büyük ve z, t …

38 statistical-significance chi-squared p-value fishers-exact z-statistic

1

Biplot ile İlişkili PCA ve Yazışma Analizi

Biplot, genellikle temel bileşen analizi (ve ilgili tekniklerin) sonuçlarını görüntülemek için kullanılır . Bileşen yüklerini ve bileşen puanlarını aynı anda gösteren ikili veya üst üste bir dağılım grafiğidir . Onun bir benim yorumun kalkan bir cevap verdiğini @amoeba bugün tarafından bilgi verildi soruya Biplot koordinatları nasıl üretildiği / ölçekli sorar; …

38 pca multivariate-analysis svd correspondence-analysis biplot

2

Binom regresyon için R çıktısının yorumlanması

Binom veri testlerinde bu konuda oldukça yeniyim, ancak bir tane yapmam gerekiyor ve şimdi sonucun nasıl yorumlanacağından emin değilim. Yanıt değişkeni olan y değişkeni binomdur ve açıklayıcı faktörler süreklidir. Sonuçları özetlerken elde ettiğim şey bu: glm(formula = leaves.presence ~ Area, family = binomial, data = n) Deviance Residuals: Min 1Q …

38 r regression logistic binomial interpretation

8

İstatistiksel olarak anlamlı olmamasına rağmen bir regresyonda bir değişken ne zaman kullanılmalıdır?

Ekonometri ve R ile ilgili bazı deneyimleri olan bir ekonomi öğrencisiyim. İstatistiksel olarak anlamlı olmamasına rağmen, bir regresyonda bir değişkeni dahil etmemiz gereken bir durum olup olmadığını bilmek isterdim?

37 statistical-significance feature-selection

5

İtalyan oğlumun bir ilkokula gideceği gerçeği, kendi sınıfında bulunması beklenen İtalyan çocuk sayısını değiştirecek mi?

Bu, cevabı konusunda gerçekten şaşkın olduğum gerçek hayattan kaynaklanan bir sorudur. Oğlumun Londra'da ilk okula başlaması gerekiyor. Biz İtalyan olduğumuz için okula kaç İtalyan çocuğun katıldığını merak ediyordum. Bunu başvuru sırasında Kabul Görevlisine sordum ve bana sınıf başına ortalama 2 İtalyan çocuğu olduğunu söyledi (30 yaşında). Şimdi çocuğumun kabul edildiğini …

37 probability self-study average

3

Varyans

TL, DR: O görünür aksine tavsiye sık sık tekrarlanan, çapraz doğrulama (Loo-CV) terk-on Çıkış - olup,ile kat CV(kat sayısı) eşit(numara Eğitim gözlemlerinin) -Model / algoritma, veri seti veya her ikisinde debelirli bir stabilite koşuluvarsayarsak, en değişken değil,herhangi biriçinen az değişkenolan genelleme hatasının tahminlerini verir(hangisinden emin değilim) bu kararlılık durumunu gerçekten …

37 regression machine-learning variance cross-validation predictive-models

2

MEAN'ın ARIMA'dan daha iyi performans göstermesi olağandışı mı?

Geçenlerde bir dizi tahmin yöntemi uyguladım (MEAN, RWF, ETS, ARIMA ve MLP'ler) ve MEAN'ın şaşırtıcı derecede iyi olduğunu gördüm. (MEAN: Gelecekteki tüm tahminlerin gözlenen değerlerin aritmetik ortalamasına eşit olarak tahmin edildiği durumlarda.) MEAN, kullandığım üç seri üzerinde ARIMA'dan bile daha iyi performans gösterdi. Bilmeyi istediğim, eğer bu olağandışıysa? Bu, kullandığım …

37 forecasting arima

1

Glmer neden maksimum olasılığa ulaşmıyor (başka bir genel optimizasyon uygulayarak doğrulandığı gibi)?

Sayısal olarak türetmek MLE s glmM pratikte zordur ve, biliyorum, biz (Örneğin; kaba kuvvet optimizasyonu kullanmamalısınız optimbasit şekilde). Ancak kendi eğitim amacım için, modeli doğru bir şekilde anladığımdan emin olmak için denemek istiyorum (aşağıdaki koda bakın). Her zaman tutarsız sonuçlar aldığımı öğrendim glmer(). Özellikle, MLE'leri glmerbaşlangıç değerleri olarak kullansam bile, …

37 r maximum-likelihood optimization lme4-nlme

6

İki binom dağılımının birbirinden istatistiksel olarak farklı olup olmadığını test edin

Her biri binom dağılımlı üç veri grubum var (yani, her bir grupta başarılı veya başarısız olan öğeler var). Öngörülen bir başarı olasılığım yok, ancak bunun yerine her birinin başarı oranına gerçek başarı oranı için bir yaklaşım olarak dayanabilir. Bu soruyu sadece buldum , bu çok yakın ancak bu senaryo ile …

37 statistical-significance binomial bernoulli-distribution