İstatistikler ve Büyük Veri

2

Hiyerarşik kümeleme için doğru bağlantı yöntemini seçme

Ben yapıyorum hiyerarşik kümeleme Google BigQuery'ye üzerinde reddit veri dökümü toplanan ve işlenen ettik verilere. İşlemim şöyle: / R / politics'teki en son 1000 yayını al Tüm yorumları topla Verileri işleyin ve bir n x mveri matrisi hesaplayın (n: kullanıcılar / samples, m: posts / features) Hiyerarşik kümeleme için uzaklık …

33 clustering distance unsupervised-learning hierarchical-clustering

2

Zaman serisi verileriyle önyükleme nasıl yapılır?

Kısa süre önce, tahmin ediciler için standart hataları ve güven aralıklarını hesaplamak için önyükleme tekniklerini kullanmayı öğrendim. Öğrendiğim şey, verilerin IID olması durumunda, örnek verileri popülasyon olarak değerlendirebileceğiniz ve yerine yenisini alarak örnekleme yapabildiğiniz ve bunun bir test istatistiğinin çoklu simülasyonlarını almanıza olanak sağlayacağıydı. Zaman serileri durumunda, bunu açıkça yapamazsınız …

33 time-series bootstrap

7

Normallik nedir?

Pek çok farklı istatistiksel yöntemde "normallik varsayımı" vardır. "Normallik" nedir ve normallik olup olmadığını nasıl anlarım?

33 distributions normality-assumption

10

Neden iki rastgele değişkenin toplamı bir evrişimdir?

Uzun zamandır iki rasgele değişkenin "toplamının" evrişim olduğunu neden anlamadım , f(x)f(x)f(x) ve g(x)g(x)g(x) in karışım yoğunluğu fonksiyonu toplamı pf(x)+(1−p)g(x)pf(x)+(1−p)g(x)p\,f(x)+(1-p)g(x); aritmetik toplamı ve evrişimleri. "İki rastgele değişkenin toplamı" ifadesi google 146.000 kez görünür ve aşağıdaki gibi eliptiktir. Eğer bir kişi bir RV'yi tek bir değer vermesi için düşünürse, o zaman …

33 pdf terminology cdf mixture convolution

7

Varyasyon katsayısı nasıl yorumlanır?

Varyasyon Katsayısını anlamaya çalışıyorum . Bunu aşağıdaki iki veri örneğine uygulamaya çalıştığımda, sonuçları nasıl yorumlayacağımı anlayamıyorum. Diyelim ki örnek 1 ve örnek 2 10 , 15 , 17 , 22 , 21 , 27'dir . Burada örnek 2 = örnek 1 + 10 gördüğünüz gibi.0,5,7,12,11,170,5,7,12,11,17{0, 5, 7, 12, 11, 17}10,15,17,22,21,2710,15,17,22,21,27{10 …

33 descriptive-statistics coefficient-of-variation

3

Temel hipotez testleri neden medyana değil de ortalamaya odaklanıyor?

Temel düşük lisans istatistik derslerinde, öğrencilere (genellikle?) Bir popülasyon ortalaması için hipotez testi verilmektedir. Odak noktası medyan değil neden ortadadır? Tahminim, merkezi limit teoremi nedeniyle ortalamayı test etmenin daha kolay olduğu, ancak bazı eğitimli açıklamaları okumayı çok isterim.

32 hypothesis-testing mean inference median

3

Büyük çalışmalarda neden küçük etkiler bulmak yayının önyargısını gösteriyor?

Bazı metodolojik makaleler (örn. Egger ve diğ. 1997a, 1997b), aşağıdaki gibi huni grafiklerini kullanarak meta-analizlerin gösterdiği şekilde yayın yanlılığını tartışmaktadır. 1997b makalesi, "yayın yanlılığı varsa, yayınlanan çalışmaların en büyüğünün en küçük etkiyi rapor etmesi bekleniyor" diyerek devam ediyor. Ama neden bu? Bana öyle geliyor ki tüm bunların kanıtlayacağı şey zaten …

32 meta-analysis publication-bias

1

Eğer rastgele simetrik bir matris üretersem, pozitif kesin olma şansı nedir?

Bazı dışbükey optimizasyonlar denemede tuhaf bir soru var. Soru: Diyelim ki rasgele (standart normal dağılım diyelim) bir simetrik matrisi ürettiğini (örneğin, üst üçgen matriksi oluşturdum ve simetrik olduğundan emin olmak için alt yarısını doldurun), pozitif bir kesin olma şansı nedir? matris? Olasılığı hesaplamak için yine de var mı?N×NN×NN \times N

32 probability matrix random-generation eigenvalues random-matrix

5

Neden bazı insanlar eksik değerleri değiştirmek için -999 veya -9999 kullanıyor?

Veri setim var. Çok fazla eksik değer var. Bazı sütunlarda eksik değer -999 ile değiştirildi, ancak diğer sütunlarda eksik değer 'NA' olarak işaretlendi. Eksik değeri değiştirmek için neden -999'u kullanalım?

32 missing-data

2

Jürgen Schmidhuber tarafından üretilen üretici rakip ağlar var mıydı?

Https://en.wikipedia.org/wiki/Generative_adversarial_networks adresinde okudum : [Üretken ters ağlar] 2014 yılında Ian Goodfellow ve arkadaşları tarafından tanıtıldı. Ancak Jurgen Schmidhuber bu yönde daha önce benzer çalışmalar yaptığını iddia ediyor (örneğin, üretici karşıt ağlar eğitimi sırasında NIPS 2016'da bazı tartışmalar yapıldı: https://channel9.msdn.com/Events/Neural-Information-Processing-Systems- Konferans / Sinir-Bilgi İşlem-Sistemleri-Konferans-NIPS-2016 / Üretken- Değişken -Ağlar bkz. 1h03min). Jürgen …

32 neural-networks history gan

6

Merkezi limit teoreminin tutmadığı herhangi bir örnek var mı?

Wikipedia diyor - Olasılık teorisinde, merkezi limit teoremi (CLT), çoğu durumda , bağımsız rastgele değişkenler eklendiğinde, normalize edilmiş toplamlarının, orijinal değişkenlerin kendileri olmasa bile, normal bir dağılıma (gayrı resmi olarak "çan eğrisi") yöneldiğini tespit eder. normal dağılım... "Çoğu durumda" deyince, hangi durumlarda merkezi limit teoremi işe yaramaz?

32 probability mathematical-statistics normal-distribution central-limit-theorem

7

CSV dosyalarında virgül neden kötü bir kayıt ayırıcı / sınırlayıcıdır?

Bu makaleyi okuyordum ve bu sorunun doğru cevabını merak ediyorum. Aklıma gelen tek şey, belki de bazı ülkelerde ondalık ayırıcının virgül olmasıdır ve CSV'de veri paylaşırken sorun olabilir , ancak cevabımdan gerçekten emin değilim.

32 project-management

3

P değeri bir nokta tahmini midir?

Kişi p-değerleri için güven aralıklarını hesaplayabildiğinden ve aralık kestiriminin tersine nokta tahmini olduğu için: p-değeri bir nokta tahmini midir?

32 confidence-interval estimation p-value estimators point-estimation

2

Rastgele orman çarpıtma doğruluğu ve özellik seçimindeki yüksek korelasyonlu değişkenler olmaz mı?

Anladığım kadarıyla, yüksek korelasyonlu değişkenler, rastgele orman modelinde çoklu-derinlik sorunlarına neden olmayacak (Lütfen hatalıysam düzeltin). Bununla birlikte, diğer taraftan, benzer bilgileri içeren çok fazla değişkenim varsa, model bu sette diğerlerinden çok daha fazla ağırlık alır mı? Örneğin, aynı tahmine dayalı güce sahip iki bilgi seti (A, B) vardır. Değişken , …

32 random-forest multicollinearity ensemble

8

Önce Bayesçi mi yoksa sıkça istatistik mi öğretmeli?

Şu an lisede olan öğrencilerime, istatistikleri anlamalarına yardım ediyorum ve bazı teorilere aldırış etmeden bazı basit örneklerle başlamayı düşünüyorum. Amacım, istatistik ve nicel öğrenmeyi daha fazla takip etme konusundaki ilgilerini artırmak için, en baştan istatistiklerini öğrenmek için onlara en sezgisel fakat araçsal olarak yapıcı bir yaklaşım vermek olacaktır. Başlamadan önce, …

32 probability hypothesis-testing bayesian frequentist teaching