İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

3
Manifold nedir?
Temel Bileşen Analizi, LDA vb. Gibi boyutluluk azaltma tekniğinde genellikle manifold terimi kullanılır. Teknik olmayan terim manifoldu nedir? Eğer bir noktası , boyutunu küçültmek istediğim bir alana aitse, ve eğer bir ses ve ve ile ilişkisizse, o zaman gerçek noktalar , gürültü nedeniyle birbirinden çok uzak olacaktır. Bu nedenle, gürültü …

2
İstatistiklerde Beyaz Gürültü
Genellikle farklı istatistiksel modeller hakkında okurken ortaya çıkan beyaz gürültü terimini görüyorum. Ancak şunu itiraf etmeliyim ki, bunun ne anlama geldiğinden tam olarak emin değilim. Genellikle olarak kısaltılır . Bu normal dağıldığı veya herhangi bir dağıtımı takip edebileceği anlamına mı geliyor?WN(0,σ2)WN(0,σ2)WN(0,σ^2)

1
Varsayımlar karşılanmadığında bir regresyon modeli ne kadar yanlış?
Bir regresyon modelini yerleştirirken, çıktıların varsayımlarına uyulmazsa, özellikle: Artıklar homoscedastik değilse ne olur? Kalanlar Kalanlar - Takılan arsa'da artan veya azalan bir model gösteriyorsa. Artıklar normal dağılmazsa ve Shapiro-Wilk testinde başarısız olursa ne olur? Shapiro-Wilk normallik testi çok katı bir testtir ve bazen Normal-QQ grafiği biraz makul görünse bile, veriler …


1
Taylor Expansion ile XGBoost Kaybı Fonksiyonu Yaklaşımı
Bir örnek olarak, ilgili XGBoost modelin amacı, fonksiyonu, ttt 'inci yineleme: L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) burada ℓℓ\ell kaybı fonksiyonudur, ftftf_t olan ttt 'inci ağaç çıkışı ve ΩΩ\Omega regülarizasyonu olup. Hızlı hesaplama için (birçok) ana adımdan biri yaklaşık değerlerdir: L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), burada gigig_i ve hihih_i işlev kaybı, birinci ve ikinci türevleridir. İstediğim şey, yukarıdaki …

2
Kademeli bir seçim yaptıktan sonra p değerleri neden yanıltıcıdır?
Örneğin doğrusal bir regresyon modeli düşünelim. Veri madenciliğinde, AIC kriterine göre kademeli bir seçim yaptıktan sonra, her gerçek regresyon katsayısının sıfır olduğunu belirten boş hipotezi test etmek için p değerlerine bakmak yanıltıcı olduğunu duydum. Modelde kalan tüm değişkenlerin sıfırdan farklı gerçek bir regresyon katsayısına sahip olduğu düşünülmeli. Biri bana nedenini …

3
Zeka Oyunları: Tek tip [0,1] dağılımından çekildiğinde monoton şekilde artan bir iid dizisinin beklenen uzunluğu nedir?
Bu, burada bildirilen nicel bir analist pozisyonu için bir röportajdır . Tekdüze bir [0,1][0,1][0,1] dağılımından çekildiğimizi ve çekilişlerin olduğunu düşünelim, monoton olarak artan bir dağılımın beklenen uzunluğu nedir? Yani, mevcut çekiliş önceki çekilişe eşit veya daha küçükse çizmeyi bırakırız. Pr ( uzunluk = 1 ) = ∫10∫x10d x2d x1= 1 …

1
Saniye cinsinden “Frekans” değeri R cinsinden verilerdir.
Tahmin için R (3.1.1) ve ARIMA modellerini kullanıyorum. Zaman serisi verilerini kullanıyorsanız , ts()fonksiyonda atanan "frekans" parametresinin ne olması gerektiğini bilmek isterim : dakikalarla ayrılır ve 180 güne (1440 dakika / gün) yayılır saniye ile ayrılır ve 180 güne (86.400 saniye / gün) yayılır. Eğer tanımı doğru hatırlıyorsam, R cinsinden …

4
Ekstrapolasyon v. İnterpolasyon
Ekstrapolasyon ve enterpolasyon arasındaki fark nedir ve bu terimleri kullanmanın en kesin yolu nedir? Örneğin, enterpolasyonu kullanarak bir gazetede bir ifade gördüm: "İşlem, bölme noktaları arasındaki tahmini işlevin şeklini araya sokuyor" Hem ekstrapolasyon hem de enterpolasyon kullanan bir cümle, örneğin: Kernel yöntemini kullanarak enterpolasyonlu işlevi sol ve sağ sıcaklık kuyruklarına …

4
Pek çok p-değerinin homojen bir dağılımı H0'nın doğru olduğuna dair istatistiksel kanıt veriyor mu?
Tek bir istatistiksel test, boş hipotezin (H0) yanlış olduğu ve bu nedenle alternatif hipotezin (H1) doğru olduğuna dair kanıt verebilir. Ancak H0’ın doğru olduğunu göstermek için kullanılamaz çünkü H0’yı reddetmek başarısızlık H0’nin doğru olduğu anlamına gelmez. Ancak, istatistiksel testi birçok kez yapma şansınız olduğunu varsayalım, çünkü birbirinizden bağımsız birçok veri …

2
Neden glmnet ridge regression bana manuel hesaplamadan farklı bir cevap veriyor?
Sırt regresyon tahminlerini hesaplamak için glmnet kullanıyorum. Beni glmnet’in yaptığını düşündüğüm şeyi yaptığından şüphelenen bazı sonuçlar aldım. Bunu kontrol etmek için, çözüme göre yapılan ridge regresyonunun sonucunu ve glmnet'teki karşılaştırmayı yaptığım basit bir R betiği yazdım, fark önemlidir. n <- 1000 p. <- 100 X. <- matrix(rnorm(n*p,0,1),n,p) beta <- rnorm(p,0,1) …


2
Neden tabakalı çapraz doğrulama kullanılır? Bu neden varyansa bağlı faydaya zarar vermez?
Bana, özellikle cevap sınıfları dengesiz olduğunda, tabakalı çapraz doğrulama kullanmanın faydalı olduğu söylendi. Çapraz onaylamanın bir amacı, orijinal eğitim verisi örneğimizin rastgelelik durumunun hesaba katılmasına yardımcı olmaksa, her bir katlamanın kesinlikle aynı sınıf dağılımına sahip olmasını sağlamak, orijinal eğitim setinizin temsili bir sınıf dağılımına sahip olduğundan emin olmadığınız sürece, buna …


1
Farklı mesafeler ve yöntemler ile elde edilen hiyerarşik kümeleme dendrogramlarının karşılaştırılması
[İlk sıradaki "Hiyerarşik kümelenme ağaçları için benzerliğin ölçülmesi" başlığı daha sonra konuyu daha iyi yansıtacak şekilde @ tnphns tarafından değiştirildi] Hasta kayıtlarının bir veri çerçevesi üzerinde bir dizi hiyerarşik küme analizi yapıyorum (örneğin, http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) Ağacın son kümeleri / yapısı / görünümü üzerindeki etkilerini anlamak için farklı uzaklık ölçüleri, farklı …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.