İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

1
Ampirik Bayes nasıl geçerlidir?
Ben de Empirical Bayes'e giriş yapan harika bir kitabı okudum . Kitabın harika olduğunu düşünmüştüm, ancak verilerden öncelikler oluşturmak yanlış hissettim. Bir analiz planı hazırlamanız ve ardından veri toplamanız ve daha önce analiz planınızda belirlediğiniz hipotezi test etmeniz konusunda eğitildim. Bunu daha önce toplayan verilere ilişkin bir analiz yaptığınızda, sizi …

1
Varyasyonlu oto kodlayıcılar nelerdir ve hangi öğrenme görevlerinde kullanılırlar?
Gereğince bu ve bu cevap, autoencoders boyut azaltılması için sinir ağları kullanan bir tekniktir görünmektedir. Ek olarak, değişken bir otomatik kodlayıcının ne olduğunu ("geleneksel" otomatik kodlayıcılara göre başlıca farklılıkları / faydaları) ve bu algoritmaların kullanıldığı ana öğrenme görevlerinin ne olduğunu bilmek isterim.

2
Kuantil regresyon: Kayıp fonksiyonu
Kuantil regresyonu anlamaya çalışıyorum, fakat beni acı çeken bir şey, kayıp fonksiyonunun seçimi. ρτ(u)=u(τ−1{u&lt;0})ρτ(u)=u(τ−1{u&lt;0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) beklentisinin -quantile değerine eşit olduğunu biliyorum, ancak bu işlevle başlamak için sezgisel neden nedir? Bu işlevi minimize etmek ile nicelik arasındaki ilişkiyi görmüyorum. Biri bana açıklayabilir mi?ρτ(y−u)ρτ(y−u)\rho_\tau(y-u)τ%τ%\tau\%

2
Karışık modeller öngörücü modeller olarak yararlı mıdır?
Tahmini modelleme açısından karma modellerin avantajları konusunda biraz kafam karıştı. Tahmini modeller genellikle daha önce bilinmeyen gözlemlerin değerlerini öngörmek anlamına geldiğinden, karışık bir modelin faydalı olmasının tek yolunun popülasyon düzeyinde tahminler sağlama yeteneği (rastgele etkiler eklemeden) anlamına geldiği açıktır. Ancak, sorun şu ana kadar ki deneyimlerime göre, karışık modellere dayalı …


2
Karar ağacını kim icat etti?
Karar ağacı veri yapısını ve algoritmasını kimin icat ettiğini bulmaya çalışıyorum. Karar ağacı öğrenimine ilişkin Wikipedia girişinde "ID3 ve CART'ın aynı anda bağımsız olarak icat edildiği (1970 ile 1980 arasında)" iddiası var. ID3 daha sonra sunuldu: Quinlan, JR 1986. Karar Ağaçlarının İndüksiyonu. Mach. Öğrenin. 1, 1 (Mart 1986), 81-106 bu …
24 cart  history 



3
Adam Optimizer'ın hiper parametrelerinin değerine sağlam olarak kabul edilmesinin nedeni nedir?
Deep Learning için Adam optimizerini okuyordum ve Bengio, Goodfellow ve Courville tarafından yazılan Deep Learning adlı yeni kitapta şu cümleyi okudum: Adam genel olarak hiper parametrelerinin seçimine oldukça sağlam olarak kabul edilir, ancak öğrenme oranının bazen önerilen varsayılan değerden değiştirilmesi gerekir. eğer bu doğruysa, bu büyük bir sorun çünkü hiper …

3
Bilgi vermeyen önceki teorinin tarihi
Bilgilendirici olmayan öncelikleri hakkında Bayesian İstatistik kursu için kısa bir teorik makale yazıyorum (Ekonomi Yüksek Lisansında) ve bu teorinin gelişiminde hangi adımların olduğunu anlamaya çalışıyorum. Şimdiye kadar zaman çizelgem üç ana adımdan oluşuyor: Laplace'in kayıtsızlık ilkesi (1812), Değişmeyen Önceler (Jeffreys (1946)), Bernardo referansı (1979). Literatür taramamdan, kayıtsızlık ilkesinin (Laplace), önceden …

3
Aritmetik ortalama geometrik ortama çok yakın olduğu zaman veriler hakkında ne söylenebilir?
Geometrik ortalama ve aritmetik ortalama hakkında birbirlerine çok yakın düşen önemli bir şey var mı, yani ~% 0.1? Böyle bir veri seti hakkında ne gibi varsayımlar yapılabilir? Bir veri setini analiz etmeye çalışıyorum ve ironik bir şekilde değerlerin çok, çok yakın olduğunu fark ettim. Tam değil, ama yakın. Ayrıca, aritmetik …

3
Lojistik regresyonun değerlendirilmesi ve Hosmer-Lemeshow Uyum İyiliği'nin yorumlanması
Hepimizin bildiği gibi, lojistik regresyon modelini değerlendirmek için 2 yöntem var ve çok farklı şeyler test ediyorlar. Öngörü gücü: Bağımsız değişkenleri temel alarak bağımlı değişkeni ne kadar iyi tahmin edebileceğinizi ölçen bir istatistik edinin. Tanınmış Sahte R ^ 2, McFadden (1974) ve Cox ve Snell'dir (1989). Uygunluk istatistikleri Test, modeli …

3
Zamanın başlangıcından beri neden tüm deneylere çoklu hipotez düzeltmeleri uygulanmadı?
Yanlış keşif oranını kontrol etmek için tek bir veri setine dayanan deneylere çoklu hipotez testi için Benjamini Hochberg benzeri düzeltmeler uygulamamız gerektiğini biliyoruz, aksi takdirde pozitif sonuç veren tüm deneyler yanlış olabilir. Ama neden bu aynı prensibi, verilerin nereden geldiğine bakılmaksızın, zamanın başından beri tüm deneylere uygulamıyoruz. Sonuçta, yayınlanmış bilimsel …


2
Metin Sınıflandırması için Sözcük Torbası: Neden TFIDF yerine sadece kelime frekanslarını kullanmıyorsunuz?
Metin sınıflandırma için ortak bir yaklaşım, bir “sözcük çantası” ndan bir sınıflandırıcı yetiştirmektir. Kullanıcı sınıflandırılacak metni alır ve her nesnedeki kelimelerin sıklıklarını sayar, ardından elde edilen matrisi yönetilebilir bir büyüklükte tutmak için bir çeşit düzeltme yapılır. Genellikle kullanıcıların TFIDF kullanarak kendi özellik vektörlerini oluşturduklarını görüyorum. Başka bir deyişle, yukarıda belirtilen …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.