İstatistikler ve Büyük Veri

16

Hangi yanlış kullanılan istatistiksel terimleri düzeltmeye değer?

İstatistikler her yerde; Ancak istatistiksel terimlerin ortak kullanımı genellikle belirsizdir. Olasılık ve olasılık terimleri , iyi tanımlanmış ve farklı matematiksel ifadelere rağmen, İngilizce dilinde birbirleri yerine kullanılabilir. Olasılık olasılığını terimden ayırmamak , rutin olarak pozitif bir mamografi ile verilen meme kanseri olasılığını ölçmeye çalışan hekimleri şaşırtıyor: “Ah, ne saçmalık. Bunu …

103 terminology

19

İstatistiksel bir hakemi nasıl rahatsız edebilirim?

Kısa bir süre önce bildirilerdeki istatistikleri gözden geçirme hakkındaki genel prensiplerle ilgili bir soru sordum . Şimdi sormak istediğim, bir makaleyi gözden geçirirken özellikle sizi rahatsız eden şey, yani istatistiksel bir hakemi gerçekten sinirlendirmenin en iyi yolu nedir! Cevap başına bir örnek lütfen.

102 references referee

5

Tahmin hatasını tahmin etmek için çapraz doğrulama ve önyükleme arasındaki farklar

Tahmini hatayı tahmin etmek için çapraz doğrulama ve bootstrapping arasındaki farklar hakkındaki düşüncelerinizi istiyorum. Biri küçük veri kümesi boyutları veya büyük veri setleri için daha iyi çalışıyor mu?

102 cross-validation predictive-models bootstrap

2

İstatistiksel olarak anlamlı bir sabit terimi çıkarılması arttırır

Açıklayıcı değişkenli basit bir doğrusal modelde, αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i Kesişim terimini kaldırmanın uyumu büyük ölçüde iyileştirdiğini buldum ( değeri 0.3'ten 0.9'a gidiyor). Bununla birlikte, kesişme terimi istatistiksel olarak anlamlı görünmektedir.R2R2R^2 Müdahale ile: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median …

101 r linear-model interpretation r-squared intercept

3

Toplu gradyan inişine karşı stokastik gradyan inişine karşı

Bazı eğitim seti olduğunu varsayalım için . Ayrıca eğitim setinde bir tür denetimli öğrenme algoritması çalıştırdığımızı varsayalım. Hipotezler, . ve arasındaki "mesafeyi" en aza indiren parametrelerini bulmamız gerekir . Let(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y_{(i)}-h_{\theta}(x_{(i)})^{2} Sonra en aza indiren bulmak istiyoruz …

101 optimization gradient-descent sgd

8

ASA

P-değerleri olarak etiketlenmiş, bunlar hakkında birçok yanlış anlaşılma ortaya çıkaran çok sayıda konuya sahibiz . On ay önce, psikolojik dergippp hakkında , -değerlerini "yasaklayan" bir konu vardı , şimdi Amerikan İstatistik Kurumu (2016) analizlerimizle "bir değerinin hesaplanmasıyla bitmememiz gerektiğini" söylüyor .ppp Amerikan İstatistik Kurumu (ASA), bilimsel topluluğun, değerinin doğru kullanımı …

100 hypothesis-testing bayesian p-value frequentist

10

Korelasyon ve basit doğrusal regresyon arasındaki fark nedir?

Özellikle Pearson moment moment çarpım korelasyon katsayısına atıfta bulunuyorum.

99 correlation regression

14

Kendi kendine çalışma zaman serisi analizi için kitaplar?

Hamilton tarafından Zaman Serileri Analizi'ne başladım, ancak umutsuzca kayboldum. Bu kitap kendi başıma öğrenemediğim için gerçekten çok teorik. Bireysel çalışma için uygun olan zaman serisi analizi üzerine bir ders kitabı önerisi olan var mı?

99 time-series self-study references

25

Serbestçe kullanılabilir veri örneklerini bulma

Herhangi bir alt grubun özelliklerini bilmeden bir popülasyonun alt gruplarını tanımlamak ve izole etmek için veri setlerini analiz etmek ve ayrıştırmak için yeni bir yöntem üzerinde çalışıyorum. Yöntem yapay veri örnekleriyle (yani, popülasyonun alt kümelerini tanımlamak ve ayırmak amacıyla özel olarak oluşturulmuş veri kümeleri) yeterince iyi çalışsa da, onu canlı …

98 dataset sample population teaching

9

P değerleri gerçekten işe yarıyor mu? Yılda bir milyon araştırma makalesi saf rastgeleliğe dayanabilir mi?

İstatistikler konusunda çok yeniyim ve sadece değerleri de dahil olmak üzere temelleri anlamayı öğreniyorum . Ama şu anda aklımda büyük bir soru işareti var ve umarım anlayışımın yanlış olduğunu umuyorum. İşte düşünce sürecim:ppp Dünyanın dört bir yanındaki araştırmalar "sonsuz maymun teoremindeki" maymunlar gibi değil mi? Dünyada 23887 üniversite bulunduğunu düşünün. …

98 hypothesis-testing statistical-significance p-value

1

Koşullu çıkarım ağaçları vs geleneksel karar ağaçları

Herkes (koşullu çıkarım ağaçları arasındaki temel farklılıkları açıklayabilir ctreedan party(örneğin daha geleneksel karar ağacı algoritmaları ile karşılaştırıldığında R paketinde) rpartR)? CI ağaçlarını farklı kılan nedir? Güçlülükler ve zayıflıklar? Güncelleme: Horthorn ve arkadaşlarının Chi'nin yorumlarda bahsettiği makaleye baktım. Tamamen takip edemedim - herhangi biri değişkenlerin permütasyonlar kullanılarak nasıl seçildiğini açıklayabilir mi …

97 r machine-learning cart

9

Y ile y üzerindeki x ve x ile y arasındaki doğrusal regresyon arasındaki fark nedir?

Pearson (x, y) veya pearson (y, x) hesaplarsanız, x ve y'nin Pearson korelasyon katsayısı aynıdır. Bu, y verilen x değerindeki y doğrusal bir regresyon yapmanın aynı olması gerektiğini gösterir, ancak durumun böyle olduğunu sanmıyorum. Birisi ilişki simetrik olmadığında ve bunun her zaman en uygun çizgiyi özetlediğini düşündüğümce Pearson korelasyon katsayısı …

97 regression correlation linear-model pearson-r

6

Seyrek modeller için neden L1 normu

Doğrusal regresyonla ilgili kitapları okuyorum. L1 ve L2 normuyla ilgili bazı cümleler var. Onları tanıyorum, sadece neden L1 normunun seyrek modeller için olduğunu anlamıyorum. Birisi kullanmak basit bir açıklama verebilir mi?

97 regression lasso regularization ridge-regression

3

Birim kökün sezgisel açıklaması

Birim kök testinin bağlamında, birim kökün ne olduğunu sezgisel olarak nasıl açıklarsınız? Bu soruda kurduğum gibi çok fazla açıklama yapmanın yollarını düşünüyorum . Birim kök ile ilgili durum, birim kök testinin zaman serilerinde durağanlık testi yapmak için kullanıldığını bildiğim (bu arada çok az). Bunu mesleğe ya da çok basit bir …

97 intuition unit-root

4

Standart hata ve standart sapma arasındaki fark

Standart hata ile standart sapma arasındaki farkı anlamakta güçlük çekiyorum. Nasıl farklılar ve neden standart hatayı ölçmeniz gerekiyor?

96 mean standard-deviation standard-error intuition