İstatistikler ve Büyük Veri

6

Kategorik değişkenleri birçok seviyede çökertmenin ilkeli yolu?

İstatistiki bir modelde bir girdi (öngörücü) olarak kullanmak amacıyla birçok kategoriyi bir kaçına çökertmek (veya birleştirmek) için hangi teknikler mevcuttur? Üniversite öğrencisi büyük (bir lisans öğrencisi tarafından seçilen disiplin) gibi bir değişken düşünün . Sırasız ve kategoriktir, ancak potansiyel olarak onlarca farklı seviyeye sahip olabilir. Diyelim ki regresyon modelinde majör …

58 regression categorical-data dimensionality-reduction feature-construction many-categories

3

İleri beslemeli ve tekrarlayan sinir ağları arasındaki fark nedir?

İleri beslemeli ve tekrarlayan sinir ağları arasındaki fark nedir ? Neden birini diğerine aldın? Başka ağ topolojileri var mı?

58 machine-learning neural-networks terminology rnn topologies

6

“Doymuş” bir model nedir?

Doymuş bir modelimiz olduğunu söylediğimizde ne kastedilmektedir?

58 modeling regression

11

Zeka Oyunları: pr (kafa) = p değerine sahip önyargılı bir bozuk para kullanarak eşit olasılıkla 7 tam sayı nasıl oluşturulur?

Bu, Glassdoor'da bulduğum bir sorudur : bir jeton kullanarak eşit olasılıkla 7 tam sayı nasıl üretilir ?Pr(Head)=p∈(0,1)Pr(Head)=p∈(0,1)\mathbb{Pr}(\text{Head}) = p\in(0,1) Temel olarak, adil olabilecek veya olmayabilir bir madeni paranız var ve bu, sahip olduğunuz tek rastgele sayı üreten işlemdir, yani 1'den 7'ye tamsayılar çıkaran rastgele sayı üreteci ile gelir; 1/7. Verilerin …

58 probability binomial random-generation

3

Ortalama mutlak hata VEYA kök ortalama kare hatası?

Neden Ortalama Mutlak Hata (MAE) yerine Kök Ortalama Karesi Hatası (RMSE) kullanılır? Selam Hesaplamada oluşan hatayı araştırıyorum - İlk başta hatayı Ortalama Ortalama Karelenmiş Hata Hatası olarak hesapladım. Biraz daha yakından bakıldığında, hata karelerinin etkisinin, küçük hatalardan daha büyük hatalara daha fazla ağırlık verdiğini ve hata tahminini garip aykırı yönüne …

58 least-squares mean rms mae

2

Bir efsanenin başlığını ggplot2'de nasıl değiştirebilirim? [kapalı]

2 x 4 x 3 hücreli veri setinden gelen verileri özetlemek için ggplot2'de yapıyorum. 2-seviyeli değişken için paneller kullanarak facet_grid(. ~ Age)ve x ve y eksenlerini kullanarak paneller yaptım aes(x=4leveledVariable, y=DV). Ben aes(group=3leveledvariable, lty=3leveledvariable)şimdiye kadar arsa üretirdim. Bu bana, 2 seviyeli değişken tarafından panellenen ve X seviyeli 4 seviyeli değişkeni …

58 r data-visualization ggplot2

7

VAE'ler için reparametre numarası nasıl çalışır ve bu neden önemlidir?

Değişken otomatik kodlayıcılar (VAE) için reparameterization trick nasıl çalışır? Temel matematiği basitleştirmeden sezgisel ve kolay bir açıklama var mı? Ve neden 'numaraya' ihtiyacımız var?

57 mathematical-statistics autoencoders variational-bayes generative-models

1

ROC eğrisini anlama

ROC eğrisini anlamada sorun yaşıyorum. Eğitim setinin her bir alt kümesinden farklı modeller oluşturup bir olasılık üretmek için kullanırsam, ROC eğrisinin altındaki alanda herhangi bir avantaj / gelişme var mı? Örneğin, değerlerine sahiptir , ve modeli inşa kullanılarak 1.-4 değerlerinden ve 8. ve 9. değerleri ve kalan tren verilerini kullanarak …

57 r roc

1

Sayma verileri için karekök dönüşümü neden önerilir?

Sayılarınız varken karekök almanız önerilir. (CV bazı örnekler için HarveyMotulsky cevabı @ bakınız burada ya whuber cevabı @ burada Poisson olarak dağıtılan bir yanıt değişkeni bulunan genelleştirilmiş doğrusal modelin yerleştirilmesi sırasında.) Öte yandan, günlük olduğunu kurallı bağlantı . Bu, yanıt verilerinizin bir günlük dönüşümünü almak gibi bir şeydir (daha doğrusu …

57 generalized-linear-model data-transformation poisson-distribution count-data variance-stabilizing

13

Arka arkaya 10 kafa, bir sonraki fırlatma kuyruğu olma şansını arttırır mı?

Aşağıdakilerin doğru olduğunu farz ediyorum: adil bir madeni para farz etmek, üst üste 10 kafa almak, bir madeni para atmak, bir sonraki madeni para ne kadar olasılık ve / veya istatistik jargonu olursa olsun, bir kuyruk olma şansını arttırmaz. (özür dilerim püf noktaları). Durumun bu olduğunu farz edersem sorum şu: …

57 probability independence intuition games bernoulli-process

4

Olasılık fonksiyonunun pdf olmaması sebebi nedir?

Olasılık fonksiyonunun pdf (olasılık yoğunluk fonksiyonu) olmama nedeni nedir?

57 likelihood pdf

7

Momentler yönteminin küçük örneklemlerde en yüksek olasılığı yakalayabildiği örnekler?

Maksimum olabilirlik tahmin ediciler (MLE) asimptotik olarak verimlidir; Pratik sonuçları, küçük örneklem boyutlarında bile, çoğu zaman (MoM) tahmin yönteminden (farklı olduklarında) daha iyi yaptıklarını görüyoruz. Burada 'daha iyi', her ikisi de tarafsız olduğunda tipik olarak daha küçük varyansa sahip olma anlamında ve tipik olarak daha genel olarak daha küçük ortalama …

57 estimation maximum-likelihood mse method-of-moments efficiency

4

Bir modele ikinci dereceden bir terim eklemek, doğrusal terim eklemek mantıklı mıdır?

Öngörücülerimden birinin öncülün yordayıcıyla yalnızca kuadrik olarak ilişkili olması gereken (deneysel manipülasyon nedeniyle) bir (karma) modelim var. Dolayısıyla, modele yalnızca ikinci dereceden bir terim eklemek istiyorum. İki şey yapmamı engelliyor: Sanırım bir şeyler okudum, her zaman daha yüksek dereceli polinomları yerleştirirken düşük dereceli polinomu dahil etmelisiniz. Nerede bulduğumu unuttum ve …

57 regression polynomial

11

Markov zincirini ve gizli Markov modellerini öğrenmek için kaynaklar

Markov Zinciri ve HMM'ler hakkında bilgi edinmek için kaynaklar (öğreticiler, ders kitapları, web yayını vb.) Arıyorum. Geçmişim bir biyolog olarak ve şu anda biyoinformatik ile ilgili bir projeyle ilgileniyorum. Ayrıca, Markov modelleri ve HMM'lerin yeterli bir anlayışına sahip olmam için gereken matematiksel arka plan nedir? Google’ı kullanmaya başlamıştım ancak şu …

57 references markov-process hidden-markov-model bioinformatics

5

Sıfır kütüğünün alınmaması için x'e ne kadar küçük bir miktar eklenmelidir?

Verilerimi olduğu gibi analiz ettim. Şimdi tüm değişkenlerin kaydını tuttuktan sonra analizlerime bakmak istiyorum. Birçok değişken birçok sıfır içerir. Bu nedenle, sıfır kütüğü almaktan kaçınmak için küçük bir miktar ekliyorum. Şimdiye kadar 10 ^ -10 ekledim, herhangi bir gerekçe olmadan, gerçekten, sadece çok küçük bir miktar eklemenin keyfi olarak seçilen …

57 data-transformation chemometrics