İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

1
Bir grafiğin y ekseninin sıfırdan başlaması gerekip gerekmediği nasıl belirlenir?
"Veri ile yatmanın" yaygın bir yolu, değişikliklerin gerçekte olduğundan daha önemliymiş gibi görünmesini sağlayan y ekseni ölçeğini kullanmaktır. Bilimsel yayınları veya öğrencilerin laboratuvar raporlarını incelerken, bu “veri görselleştirme günahı” ndan sık sık üzülüyorum. Ancak, "y eksenini daima sıfırdan başlat" zor ve hızlı bir kural değildir. Örneğin, Edward Tufte işaret bir …

10
Trendleri nasıl doğru bir şekilde çizin
Farklı ülkelerdeki ölüm oranlarındaki (1000 ppl başına) trendleri göstermek için bir grafik oluşturuyorum ve arsadan gelmesi gereken hikaye, 1932'den sonra trendi artan tek Almanya (açık mavi çizgi) olmasıdır. ilk (temel) denemem Benim düşünceme göre, bu grafik ne anlatmak istediğimizi gösteriyor ama süper sezgisel değil. Eğilimler arasındaki ayrımın daha açık bir …


3
Çoklu regresyon modelinde korelasyon belirleyicilerinin olmasının etkisi nedir?
Doğrusal modeller sınıfımda iki yordayıcının bağıntılı olması ve her ikisinin de bir modele dahil edilmesi durumunda birinin önemsiz olacağını öğrendim. Örneğin, bir evin büyüklüğünü ve yatak odası sayısının korele olduğunu varsayın. Bu iki öngörücüyü kullanan bir evin maliyetini tahmin ederken, ikisi de aynı bilgiyi sağladığı için bunlardan biri düşebilir. Sezgisel …

2
Lojistik regresyon için yapay veriler nasıl simüle edilir?
Lojistik regresyon anlayışımda bir şeyleri özlediğimi biliyorum ve gerçekten herhangi bir yardım için minnettar olurum. Anladığım kadarıyla, lojistik regresyon girdiler için verilen '1' sonucunun olasılığının, ters-lojistik fonksiyonundan geçen girdilerin doğrusal bir birleşimi olduğunu varsayar. Bu, aşağıdaki R kodunda örneklenmiştir: #create data: x1 = rnorm(1000) # some continuous variables x2 = …

8
Düzensiz aralıklı zaman serilerinin modellenmesinde herhangi bir altın standart var mı?
İktisat alanında (bence) düzenli aralıklı zaman serileri için ARIMA ve GARCH ve modelleme noktası süreçleri için Poisson, Hawkes var, peki düzensiz (düzensiz) aralıklı zaman serileri modelleme girişimleri hakkında - en azından herhangi bir ortak uygulama var mı? ? (Bu konuda biraz bilginiz varsa, ilgili wiki makalesini de genişletebilirsiniz .) Baskı …


5
Çevrimiçi R kullanma - yüklemeden [kapalı]
R'yi bir web arayüzünde, kurulmasına gerek kalmadan kullanma imkanı var mı? Çalıştırmayı sevdiğim sadece küçük bir senaryom var ama uzun bir kurulum prosedürü olmadan bir şans vermek istiyorum. Teşekkür ederim.
45 r 

3
Sapma nedir? (özellikle CART / rpart'ta)
“Sapma” nedir, nasıl hesaplanır ve istatistiki olarak farklı alanlarda kullanımları nelerdir? Özellikle, CART’daki kullanımlarıyla (ve R’de rpart’taki uygulaması) kişisel olarak ilgileniyorum. Bunu soruyorum çünkü wiki makalesi biraz eksik görünüyor ve görüşleriniz en iyi şekilde karşılanacak.
45 r  cart  rpart  deviance 

15
Beklenen kız ve erkek doğum oranı
Eleştirel düşünme için iş görüşmesi yetenek testinde bir soru ile karşılaştım. Böyle bir şey gider: Zorganya Cumhuriyeti'nin çok garip gelenekleri var. Çiftler sadece kız çocukları olmasını ister, çünkü sadece kadınlar ailenin zenginliğini devralabilir, bu nedenle erkek çocukları varsa, kız olana kadar daha fazla çocuğu vardır. Bir kızları varsa çocuk sahibi …




2
Çoklu regresyon eş değişkenleri gerçekten ne kadar iyi kontrol edebilir?
Hepimiz alışılmadık bir X belirleyicisi ile bir sonuç arasında nedensel bir bağlantı kurmaya çalışan gözlemsel çalışmalara aşinayız, bir çoklu regresyon modelinde akla gelebilecek her potansiyel karıştıcıyı dahil ederek. Böylece tüm kafa karıştırıcıları “kontrol” edersek, argüman gider, çıkar tahmincisinin etkisini izole ederiz. İstatistik derslerimin çeşitli profesörleri tarafından yapılan açık sözlere dayanarak, …

4
Normalleştirme ve ölçeklendirme
'Normalizasyon' ve 'Ölçekleme' verileri arasındaki fark nedir? Şimdiye dek her iki terimin de aynı işlemi ifade ettiğini düşündüm ama şimdi bilmediğim / anlamadığım bir şey olduğunu fark ediyorum. Ayrıca Normalizasyon ve Ölçekleme arasında bir fark varsa, Normalizasyon'u ne zaman kullanmalıyız, ancak Ölçekleme'yi kullanmamalıyız (ve bunun tersi? Lütfen bir örnek veriniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.