İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

4
ANOVA vs çoklu doğrusal regresyon? ANOVA neden deneysel çalışmalarda bu kadar yaygın olarak kullanılıyor?
ANOVA vs çoklu doğrusal regresyon? Her iki yöntemin de aynı istatistiksel modeli kullandığını biliyorum. Ancak hangi koşullar altında hangi yöntemi kullanmalıyım? Bu yöntemlerin kıyaslandığında avantaj ve dezavantajları nelerdir? ANOVA neden deneysel çalışmalarda bu kadar yaygın olarak kullanılıyor ve hiçbir zaman bir regresyon çalışması bulamıyorum?

7
İstatistiklerdeki teknik olmayan ama derin makaleler için öneriler
Bu sorunun ilham kaynağı, Leo-Breiman'ın çok bilinen bir makalesi olan İstatistiksel Modelleme: İki Kültür (açık erişim). Yazar, klasik istatistik ve makine öğrenimindeki ana fikirlere değinen, verileri analiz etmek için iki farklı yaklaşım olarak gördüğü şeyi karşılaştırır. Bununla birlikte, makale geniş bir izleyici kitlesine açıktır - tartışmalı bir şekilde, doktora düzeyinde …
24 references 

1
boyutlarındaki rastgele noktaların doğrusal olarak ayrılabilmesi olasılığı nedir ?
Verilen nnn veri noktası, her bir ddd özellikleri, n/2n/2n/2 olarak etiketlenir 000 , diğer n/2n/2n/2 olarak işaretlenmiştir 111 . Her özellik rastgele [0,1] arasında bir değer alır [0,1][0,1][0,1](tekdüze dağılım). İki sınıfı ayırabilen bir hiper düzlemin bulunma olasılığı nedir? İlk önce en kolay durumu ele alalım, yani d=1d=1d = 1 .

4
Yapay beyin ağlarından insan beyni hakkında ne öğrenebiliriz?
Sorumun / başlığımın çok belirgin olmadığını biliyorum, bu yüzden onu netleştirmeye çalışacağım: Yapay sinir ağları nispeten katı tasarımlara sahiptir. Elbette, genel olarak, biyolojiden etkilenirler ve gerçek sinir ağlarının matematiksel bir modelini oluşturmaya çalışırlar, ancak gerçek sinir ağlarının anlayışımız kesin modeller oluşturmak için yetersizdir. Bu nedenle, gerçek sinir ağlarının "yakınına" gelen …

2
Kimlik bilgisi paradoksu (en azından benim için)
Toplam (ve çok az) istatistik izinleri hakkındaki bilgim kadarıyla, ise anladım . . . , X, n,X1,X2,...,XnX1,X2,...,XnX_1, X_2,..., X_n terim, birbirinden bağımsız ve özdeş dağıtılır eder sonra da, istatistiksel bağımsız rasgele değişkenlerdir. Benim endişe burada okur iid örneklerin eski tesistir: p(Xn|Xi1,Xi2,...,Xik)=p(Xn),p(Xn|Xi1,Xi2,...,Xik)=p(Xn),p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}), herhangi bir farklı koleksiyon için ijiji_j 'in …

2
Negatif Binom Dağılımı kullanmak için Poisson Dağılımı Kullanarak Bir İşlemi Modelleme'den Geçiş?
\newcommand{\P}{\mathbb{P}} bir süre zarfında T zamanında birden fazla kez gerçekleşmeyebilecek rastgele bir sürecimiz var TTT. 0 \ leq t &lt;T döneminde meydana gelen bir dizi olay olasılığını sağlayan, bu sürecin önceden var olan bir modelinden gelen bir veri beslemesine sahibiz 0≤t&lt;T0≤t&lt;T0 \leq t < T. Bu mevcut model eski ve …

3
Neden güç veya kütük dönüşümleri makine öğrenmede çok fazla öğretilmiyor?
Makine öğrenmesi (ML), doğrusal ve lojistik regresyon tekniklerini yoğun olarak kullanır. Ayrıca özellik mühendislik teknikleri (güvenir feature transform, kernelvs.). Neden hiçbir şey hakkında variable transformation(örneğin power transformation) ML belirtilen? (Örneğin, özelliklere kök veya günlük alma hakkında hiçbir zaman duymadım, genellikle polinomları veya RBF'leri kullanıyorlar.) Benzer şekilde, ML uzmanları neden bağımlı …

1
Multinomial (1 / n,…, 1 / n) ayrıklaştırılmış bir Dirichlet (1, .., 1) olarak tanımlanabilir mi?
Yani bu soru biraz dağınık, ama bunu telafi etmek için renkli grafikler ekleyeceğim! Önce Arkaplan, Sonra Soru (lar). Arka fon Diyelim ki kategorilerinde eşit probailitlerle boyutlu bir multinom dağılımınız var . Let normalize sayar (olması olduğunu dağılımından),:nnnnnnπ=(π1,…,πn)π=(π1,…,πn)\pi = (\pi_1, \ldots, \pi_n)ccc (c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c_1, \ldots, c_n) \sim \text{Multinomial}(1/n, \ldots, 1/n) \\ \pi_i …


2
Bayesian Kement vs sıradan Kement
Kement için farklı uygulama yazılımları mevcuttur . Bayes yaklaşımı ve farklı forumlarda sıkça yaklaşan yaklaşım hakkında çok şey biliyorum. Benim sorum kemente çok özgü - Baysian kementinin normal kemente göre farklılıkları ve avantajları nelerdir ? Paketteki iki uygulama örneği: # just example data set.seed(1233) X &lt;- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y &lt;- …

4
Zaman Serileri Anomalisi Tespiti için Algoritmalar
Şu anda R's: Twitter'ın AnomalyDetection: https://github.com/twitter/AnomalyDetection kullanıyorum . Bu algoritma, mevsimsellik içeren veriler için zaman serileri anomalisi tespiti sağlar. Soru: Buna benzer başka algoritmalar var mı (mevsimsellik kontrol etmek önemli değil)? Verilerimde olabildiğince fazla zaman serisi algoritması elde etmeye çalışıyorum ki en iyisini / topluluğu seçeyim.

2
Otomatik kodlayıcılar anlamlı özellikleri öğrenemez
Bu ikisi gibi 50.000 imge var: Veri grafiklerini gösteriyorlar. Bu görüntülerden özellikler çıkarmak istedim, böylece Theano (deeplearning.net) tarafından sağlanan otomatik kodlayıcı kodunu kullandım. Sorun şu ki, otomatik kodlayıcılar herhangi bir özellik öğrenmiyor gibi görünüyor. RBM'yi denedim ve aynı. MNIST veri kümesi hoş özellikler sağlıyor ancak verilerim hiçbir sonuç vermedi. Aşağıdaki …



2
Beklenti Maksimizasyonu algoritmasının yerel bir optimum olanla birleşmesi neden garanti edilir?
EM algoritmasının birkaç açıklamasını okudum (örneğin, Bishop'un Örüntü Tanıma ve Makine Öğrenmesi'nden ve Roger ve Gerolami Makine Öğrenimi İlk Kursundan). EM'in türetilmesi tamam, anlıyorum. Ayrıca algoritmanın neden bir şeyi kapsadığını da anlıyorum: her adımda sonucu iyileştiririz ve olasılık 1.0 ile sınırlanır, bu nedenle basit bir gerçeği kullanarak (eğer bir fonksiyon …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.