İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

2
Hiyerarşik kümeleme için doğru bağlantı yöntemini seçme
Ben yapıyorum hiyerarşik kümeleme Google BigQuery'ye üzerinde reddit veri dökümü toplanan ve işlenen ettik verilere. İşlemim şöyle: / R / politics'teki en son 1000 yayını al Tüm yorumları topla Verileri işleyin ve bir n x mveri matrisi hesaplayın (n: kullanıcılar / samples, m: posts / features) Hiyerarşik kümeleme için uzaklık …

2
Zaman serisi verileriyle önyükleme nasıl yapılır?
Kısa süre önce, tahmin ediciler için standart hataları ve güven aralıklarını hesaplamak için önyükleme tekniklerini kullanmayı öğrendim. Öğrendiğim şey, verilerin IID olması durumunda, örnek verileri popülasyon olarak değerlendirebileceğiniz ve yerine yenisini alarak örnekleme yapabildiğiniz ve bunun bir test istatistiğinin çoklu simülasyonlarını almanıza olanak sağlayacağıydı. Zaman serileri durumunda, bunu açıkça yapamazsınız …


10
Neden iki rastgele değişkenin toplamı bir evrişimdir?
Uzun zamandır iki rasgele değişkenin "toplamının" evrişim olduğunu neden anlamadım , f(x)f(x)f(x) ve g(x)g(x)g(x) in karışım yoğunluğu fonksiyonu toplamı pf(x)+(1−p)g(x)pf(x)+(1−p)g(x)p\,f(x)+(1-p)g(x); aritmetik toplamı ve evrişimleri. "İki rastgele değişkenin toplamı" ifadesi google 146.000 kez görünür ve aşağıdaki gibi eliptiktir. Eğer bir kişi bir RV'yi tek bir değer vermesi için düşünürse, o zaman …

7
Varyasyon katsayısı nasıl yorumlanır?
Varyasyon Katsayısını anlamaya çalışıyorum . Bunu aşağıdaki iki veri örneğine uygulamaya çalıştığımda, sonuçları nasıl yorumlayacağımı anlayamıyorum. Diyelim ki örnek 1 ve örnek 2 10 , 15 , 17 , 22 , 21 , 27'dir . Burada örnek 2 = örnek 1 + 10 gördüğünüz gibi.0,5,7,12,11,170,5,7,12,11,17{0, 5, 7, 12, 11, 17}10,15,17,22,21,2710,15,17,22,21,27{10 …


3
Büyük çalışmalarda neden küçük etkiler bulmak yayının önyargısını gösteriyor?
Bazı metodolojik makaleler (örn. Egger ve diğ. 1997a, 1997b), aşağıdaki gibi huni grafiklerini kullanarak meta-analizlerin gösterdiği şekilde yayın yanlılığını tartışmaktadır. 1997b makalesi, "yayın yanlılığı varsa, yayınlanan çalışmaların en büyüğünün en küçük etkiyi rapor etmesi bekleniyor" diyerek devam ediyor. Ama neden bu? Bana öyle geliyor ki tüm bunların kanıtlayacağı şey zaten …

1
Eğer rastgele simetrik bir matris üretersem, pozitif kesin olma şansı nedir?
Bazı dışbükey optimizasyonlar denemede tuhaf bir soru var. Soru: Diyelim ki rasgele (standart normal dağılım diyelim) bir simetrik matrisi ürettiğini (örneğin, üst üçgen matriksi oluşturdum ve simetrik olduğundan emin olmak için alt yarısını doldurun), pozitif bir kesin olma şansı nedir? matris? Olasılığı hesaplamak için yine de var mı?N×NN×NN \times N


2
Jürgen Schmidhuber tarafından üretilen üretici rakip ağlar var mıydı?
Https://en.wikipedia.org/wiki/Generative_adversarial_networks adresinde okudum : [Üretken ters ağlar] 2014 yılında Ian Goodfellow ve arkadaşları tarafından tanıtıldı. Ancak Jurgen Schmidhuber bu yönde daha önce benzer çalışmalar yaptığını iddia ediyor (örneğin, üretici karşıt ağlar eğitimi sırasında NIPS 2016'da bazı tartışmalar yapıldı: https://channel9.msdn.com/Events/Neural-Information-Processing-Systems- Konferans / Sinir-Bilgi İşlem-Sistemleri-Konferans-NIPS-2016 / Üretken- Değişken -Ağlar bkz. 1h03min). Jürgen …

6
Merkezi limit teoreminin tutmadığı herhangi bir örnek var mı?
Wikipedia diyor - Olasılık teorisinde, merkezi limit teoremi (CLT), çoğu durumda , bağımsız rastgele değişkenler eklendiğinde, normalize edilmiş toplamlarının, orijinal değişkenlerin kendileri olmasa bile, normal bir dağılıma (gayrı resmi olarak "çan eğrisi") yöneldiğini tespit eder. normal dağılım... "Çoğu durumda" deyince, hangi durumlarda merkezi limit teoremi işe yaramaz?



2
Rastgele orman çarpıtma doğruluğu ve özellik seçimindeki yüksek korelasyonlu değişkenler olmaz mı?
Anladığım kadarıyla, yüksek korelasyonlu değişkenler, rastgele orman modelinde çoklu-derinlik sorunlarına neden olmayacak (Lütfen hatalıysam düzeltin). Bununla birlikte, diğer taraftan, benzer bilgileri içeren çok fazla değişkenim varsa, model bu sette diğerlerinden çok daha fazla ağırlık alır mı? Örneğin, aynı tahmine dayalı güce sahip iki bilgi seti (A, B) vardır. Değişken , …

8
Önce Bayesçi mi yoksa sıkça istatistik mi öğretmeli?
Şu an lisede olan öğrencilerime, istatistikleri anlamalarına yardım ediyorum ve bazı teorilere aldırış etmeden bazı basit örneklerle başlamayı düşünüyorum. Amacım, istatistik ve nicel öğrenmeyi daha fazla takip etme konusundaki ilgilerini artırmak için, en baştan istatistiklerini öğrenmek için onlara en sezgisel fakat araçsal olarak yapıcı bir yaklaşım vermek olacaktır. Başlamadan önce, …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.