İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

10
Bayesci ve sıkça tartışmanın tartışması için herhangi bir * matematiksel * temel var mı?
Vikipedi'de şöyle yazıyor : [olasılık] matematiği, olasılıkla ilgili yorumlardan büyük ölçüde bağımsızdır. Soru: Biz matematiksel olarak doğru olmak istiyorsanız Sonra izin vermediğimiz olmamalıdır herhangi olasılık yorumunu? Yani, hem Bayesci hem de frekansçılık matematiksel olarak yanlış mı? Felsefeden hoşlanmıyorum, ama matematikten hoşlanıyorum ve sadece Kolmogorov'un aksiyomları çerçevesinde çalışmak istiyorum. Eğer bu …

2
Bağımsız bileşen analizi ile faktör analizi arasındaki ilişki nedir?
Bağımsız Bileşen Analizi (ICA) konusunda yeniyim ve yöntem hakkında basit bir anlayışa sahibim. Bana göre ICA, bir istisna dışında Faktör Analizi'ne (FA) benzer: ICA, gözlemlenen rastgele değişkenlerin, Gauss olmayan bağımsız bileşenlerin / faktörlerin doğrusal bir birleşimi olduğunu varsayar; korelasyonlu, gauss bileşenlerinin / faktörlerinin doğrusal bir birleşimidir. Yukarıdaki doğru mu?

3
Zaman serisi analizi için tekrarlayan sinir ağlarını kullanmanın doğru yolu
Tekrarlayan sinir ağları "normal" olanlardan bir "hafıza" katmanına sahip olmalarından farklıdır. Bu katman nedeniyle, tekrarlayan NN'lerin zaman serisi modellemesinde yararlı olacağı varsayılmaktadır. Ancak, onları nasıl kullanacağımı doğru anladığımdan emin değilim. Diyelim ki (soldan sağa) şu zaman serisine [0, 1, 2, 3, 4, 5, 6, 7]sahibim: hedefim, inoktaları kullanarak i-1ve i-2her …

6
Olasılıkta yakınlaşma - neredeyse kesin yakınsama
Bu iki yakınsama ölçüsü arasındaki farkı hiçbir zaman gerçekten anlamadım. (Ya da, aslında, farklı yakınsama türlerinden herhangi biri, ancak bu ikisinden özellikle Büyük Sayıların Zayıf ve Güçlü Yasaları nedeniyle bahsediyorum.) Elbette, her birinin tanımını alıntılayabilirim ve farklı oldukları yere bir örnek verebilirim, ancak hala tam olarak anlamıyorum. Farkı anlamanın iyi …



5
İstatistikçiler, (n-1) 'i simülasyon olmadan popülasyon varyansı için tarafsız tahmin edici olarak kullanmayı tam olarak nasıl anladılar?
Hesaplama varyansının formülünde payda :(n−1)(n−1)(n-1) s2=∑Ni=1(xi−x¯)2n−1s2=∑i=1N(xi−x¯)2n−1s^2 = \frac{\sum_{i=1}^N (x_i - \bar{x})^2}{n-1} Nedenini hep merak etmişimdir. Ancak, "neden" hakkında birkaç iyi video okumak ve izlemek, öyle görünüyor ki, , nüfus varyansının iyi ve tarafsız bir tahmincisidir. Oysaki hafızayı küçük düşürmekte ve popülasyon varyansını abartmaktadır.n ( n - 2 )(n−1)(n−1)(n-1)nnn(n−2)(n−2)(n-2) Bilmek istediğim …

5
PCA'daki özvektörlere karşı yüklemeler: ne zaman bir başkası kullanılmalı?
Temel bileşen analizinde (PCA) özvektörler (birim vektörler) ve özdeğerler elde edilir. Şimdi, yüklemeleri olarak tanımlayalımLoadings=Eigenvectors⋅Eigenvalues−−−−−−−−−−√.Loadings=Eigenvectors⋅Eigenvalues.\text{Loadings} = \text{Eigenvectors} \cdot \sqrt{\text{Eigenvalues}}. Özvektörlerin sadece yön olduğunu ve yüklerin (yukarıda tanımlandığı gibi) bu yönler boyunca varyansı içerdiğini biliyorum. Fakat daha iyi anladığım için, özvektörler yerine yükleri nerede kullanmam gerektiğini bilmek isterim? Bir örnek mükemmel …
67 pca 


1
Hangi korelasyon bir matrisi tekil kılar ve tekillik veya tekilliğe yakınlığın etkileri nelerdir?
Farklı matrisler üzerinde bazı hesaplamalar yapıyorum (çoğunlukla lojistik regresyonda) ve genellikle "Matrix tekildir" hatasını alıyorum, burada geri dönüp korelasyonlu değişkenleri silmeliyim. Buradaki sorum, "yüksek" korelasyonlu bir matris olarak ne düşünürsünüz? Bu sözcüğü temsil etmek için bir eşik değer korelasyon var mı? Bir değişkenin bir başkasıyla 0.97 olması halinde, bu bir …

9
Bu çizelge terörist saldırı olasılığını ispat ediyor mu?
Bu görüntünün çok geçtiğini görüyorum. Bu yolla sağlanan bilgilerin bir şekilde eksik veya hatta hatalı olduğu konusunda içgüdülere sahibim, ancak istatistiklere cevap verecek kadar iyi bilgim yok. Bana bu xkcd çizgi romanını düşündürüyor, sağlam tarihsel verilerle bile, bazı durumlar olayların nasıl tahmin edilebileceğini değiştirebilir. Bu çizelge, mültecilerin tehdit düzeyinin ne …

4
Bak ve bulursun (bir korelasyon)
Birkaç yüz ölçümüm var. Şimdi, her önlemi her önlemle ilişkilendirmek için bir tür yazılım kullanmayı düşünüyorum. Bu, binlerce korelasyon olduğu anlamına gelir. Bunlar arasında (istatistiksel olarak), veriler tamamen rastgele olsa bile (her ölçüm sadece yaklaşık 100 veri noktasına sahip) yüksek bir korelasyon olmalıdır. Bir korelasyon bulduğumda, korelasyonu ne kadar zor …

7
Ne kadar ödenecek? Pratik bir problem
Bu bir ev işi sorusu değil, firmamızın karşılaştığı asıl sorun. Çok yakın bir zamanda (2 gün önce) bir bayiye 10000 ürün etiketi üretimi için emir verdik. Bayi bağımsız bir kişidir. Dışarıdan üretilen etiketleri alır ve satıcıya ödeme yapar. Her etiketin şirkete tam olarak 1 ABD doları maliyeti vardır. Dün, bayi …

7
Neden olasılık yerine maksimum log olasılığını optimize etmek
En üst düzeye çıkması gereken bazı olasılıkları formüle edebileceğiniz çoğu makine öğrenme görevinde , bazı parametreler için olasılık yerine günlük olasılık optimize ederiz . Örneğin, en yüksek olabilirlik eğitiminde, genellikle günlük olabilir. Bunu bazı gradyan yöntemleriyle yaparken, bu bir faktör içerir:ppplogplog⁡p\log pθθ\theta ∂logp∂θ=1p⋅∂p∂θ∂log⁡p∂θ=1p⋅∂p∂θ \frac{\partial \log p}{\partial \theta} = \frac{1}{p} \cdot …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.