İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

4
Uzamsal otokorelasyon için neden bir GAM hesabına enlem ve boylam eklemek neden?
Ormansızlaşma için genelleştirilmiş katkı modelleri ürettim. Mekansal-otokorelasyonu açıklamak için, enlem ve boylamı düzleştirilmiş, etkileşimli bir terim olarak ekledim (örn. S (x, y)). Bunu, yazarların 'uzamsal otokorelasyonu hesaba katan, noktaların koordinatlarını düzleştirilmiş terimler olarak dahil ettiklerini' söylediği birçok makaleyi okudum. Bu oldukça sinir bozucu. Bir cevap bulma umuduyla GAM'lerde bulabildiğim tüm …



9
Kementin regresyon için değişken seçimi için kullanılmasının dezavantajları nelerdir?
Bildiğim kadarıyla değişken seçimi için Kement kullanımı, korelasyonlu girdiler sorununu ele alıyor. Ayrıca, En Az Açı Regresyonu ile eşdeğer olduğundan, hesaplamalı olarak yavaş değildir. Bununla birlikte, birçok insan (örneğin biyo-istatistik yapmayı bildiğim insanlar) hala adım adım veya stagewise değişken seçimini desteklemektedir. Kementin elverişsiz kılan kullanımının herhangi bir pratik dezavantajı var …


8
Test verilerinin eğitim verisine sızmadığından nasıl emin olabilirim?
Tahmin edici bir model inşa eden birisine sahip olduğumuzu varsayalım, ancak birinin uygun istatistiksel ya da makine öğrenmesi ilkeleri konusunda tam olarak bilgili olmadığını varsayalım. Belki o kişiye öğrenirken yardımcı oluyoruz veya belki de bu kişi kullanımı en az bilgiyi gerektiren bir çeşit yazılım paketi kullanıyor. Şimdi bu kişi, gerçek …

5
K-ortalama kümeleme ve PCA arasındaki ilişki nedir?
Kümeleme algoritmasından önce (k-aracı gibi) PCA'yı (temel bileşen analizi) uygulamak yaygın bir uygulamadır. Uygulamada kümelenme sonuçlarını iyileştirdiğine inanılmaktadır (gürültü azaltma). Bununla birlikte, PCA ile k-aracı arasındaki ilişkinin karşılaştırmalı ve derinlemesine çalışılmasıyla ilgileniyorum. Örneğin, Chris Ding ve Xiaofeng He, 2004, K-anlamına gelir Ana Bileşen Analizi ile Kümeleme , "temel bileşenlerin K-aracı …


3
Sırtı tahmin neden köşegene sabit ekleyerek OLS'tan daha iyi hale geliyor?
Ridge regresyon tahmininin, kalan kare miktarını ve büyüklüğünde bir cezayı en aza indiren olduğunu anlıyorumββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Bununla birlikte, βridgeβridge\beta_\text{ridge} 'in \ beta_ \ text {OLS}' dan farklı olduğunu, X 'X'in köşegenineβOLSβOLS\beta_\text{OLS} sadece küçük bir sabit ekleyerek anlamını tam olarak …

7
Maliyet İşlevinin Değerlendirmeyi Yavaşladığında Optimizasyonu
Degrade iniş ve diğer birçok yöntem, maliyet fonksiyonlarında yerel minima bulmak için kullanışlıdır. Maliyet fonksiyonu, her noktada, sayısal veya analitik olarak hızlı bir şekilde değerlendirilebildiği zaman verimli olabilirler. Sıradışı bir durum olarak bana görünen neye sahibim. Maliyet fonksiyonumun her değerlendirmesi pahalıdır. Zemin yüzeyine karşı 3B yüzeyi en aza indiren bir …

12
İki kuyruklu testler… Sadece ikna olmadım. Amaç ne?
Aşağıdaki alıntı girişten, Tek kuyruklu ve iki kuyruklu testler arasındaki farklar nelerdir? , UCLA'nın istatistik yardım sitesinde. ... diğer yönde bir etkinin kaybolmasının sonuçlarını düşünün. Mevcut bir ilaca göre bir iyileşme olduğuna inandığınız yeni bir ilaç geliştirdiğinizi düşünün. Gelişimi tespit etme yeteneğinizi en üst düzeye çıkarmak istersiniz, bu nedenle tek …

13
Büyük bir çalışmada boş hipotezi reddedemezsek, boş değeri kanıtlamaz mı?
Boş hipotez anlamlılık testinin temel bir sınırlaması, bir araştırmacının boş lehine delil toplamasına izin vermemesidir ( Kaynak ). Bu iddianın birçok yerde tekrarlandığını görüyorum, ancak bunun için gerekçe bulamıyorum. Biz büyük bir çalışma gerçekleştirmek ve biz ise sıfır hipotezinin karşı istatistiksel olarak anlamlı bir kanıt bulmuyorum , o kanıt değildir …

6
Sık-Bayesci tartışması nereye gitti?
İstatistik dünyası, sık kullanılanlar ve Bayesanlar arasında bölündü. Bugünlerde herkes ikisini de yapıyor gibi görünüyor. Bu nasıl olabilir? Farklı yaklaşımlar farklı problemler için uygunsa, neden istatistiğin kurucuları bunu görmedi? Alternatif olarak, tartışma Frequentists tarafından kazanıldı mı ve gerçek öznel Bayesanlar karar teorisine geçti mi?

2
ZCA beyazlatma ve PCA beyazlatma arasındaki fark nedir?
ZCA beyazlatma ve normal beyazlatma konusunda kafam karıştı (temel bileşenler PCA özdeğerlerinin kareköklerine bölünerek elde edildi). Bildiğim kadarıyla, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite}, burada PCA özvektörleridir.UU\mathbf U ZCA beyazlamasının kullanım alanları nelerdir? Normal beyazlatma ve ZCA beyazlatma arasındaki farklar nelerdir?


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.