«outliers» etiketlenmiş sorular

Bir aykırı değer, bir veri kümesinin basit bir karakterizasyonuna göre olağandışı veya iyi tanımlanmayan bir gözlemdir. Rahatsız edici bir olasılık, bu verilerin araştırılması amaçlanandan farklı bir popülasyondan gelmesidir.

5
Veri temizliği istatistiksel analiz sonuçlarını kötüleştirebilir mi?
Bir virüs dolaşımı (2002'de ABD'de West Nile Virus gibi) veya insanların direncinin azalması veya yiyecek veya su kontaminasyonu veya sayısındaki artış nedeniyle salgınlar sırasında (sayılarda ani artış) meydana gelen vaka ve ölüm sayısında bir artış meydana gelir. sivrisinekler. Bu salgınlar her 1 ila 5 yılda bir ortaya çıkabilecek aykırı değerler …



3
Finansal zamanlamalarda güçlü aykırı değer tespiti
Finansal zaman serisi verilerinden (yani tickdata) aykırı değerleri ve hataları (nedeni ne olursa olsun) kaldırmak için bazı sağlam teknikler arıyorum. Tick-by-tick mali zaman serisi verileri çok dağınık. Borsa kapatıldığında büyük (zaman) boşluklar içerir ve borsa tekrar açıldığında büyük sıçramalar yapar. Borsa açık olduğunda, her türlü faktör, fiyat seviyelerinde yanlış (gerçekleşmemiş) …

5
Bir regresyon modelini iyileştirmek için aykırı değerleri Ortalama Mutlak Hata kutu grafiğine göre düşürmek hile yapıyor mu?
Aşağıdaki kutu grafikte gördüğünüz gibi dört yöntemle test edilmiş bir tahmin modelim var. Modelin öngördüğü özellik 0-8 aralığındadır. Orada olduğunu fark edebilirsiniz biri üst sınır aykırı ve üç alt sınır aykırı tüm yöntemlerle gösterdi. Bu örnekleri verilerden kaldırmanın uygun olup olmadığını merak ediyorum. Yoksa bu tahmin modelini geliştirmek için bir …

2
Etkili nokta, yüksek kaldıraç noktası ve aykırı değerlerin tam anlamı ve karşılaştırması?
Wikipedia'dan Etkili gözlemler , regresyon modelinin tahminleri üzerinde nispeten büyük etkisi olan gözlemlerdir. Wikipedia'dan Kaldıraç noktaları , varsa, bağımsız değişkenlerin aşırı veya dış değerlerinde yapılan gözlemlerdir, böylece komşu gözlemlerin eksikliği, yerleştirilmiş regresyon modelinin söz konusu gözleme yakın olacağı anlamına gelir. Aşağıdaki Wikipedia neden karşılaştırması Etkili bir nokta tipik olarak yüksek …

2
Normal dağılımın parametrelerini tahmin etmek: ortalama yerine medyan?
Normal dağılım parametrelerini tahmin etmek için ortak yaklaşım, ortalama ve örnek standart sapma / varyansını kullanmaktır. Ancak, bazı aykırı değerler varsa, medyan ve medyandan medyan sapması çok daha sağlam olmalıdır, değil mi? Bazı veri kümeleri ben, tahmin normal dağılım çalıştı klasik çok daha iyi bir uyum sağlıyor gibi görünmektedir N …

3
Sağlam ortalama tahmininde çarpışma rotası
Bir sürü tahminim var (yaklaşık 1000) ve hepsinin uzun dönem esneklik tahminleri olması gerekiyordu. Bunların yarısından biraz fazlası A yöntemi ve geri kalanı B yöntemi kullanılarak tahmin edilmektedir. Bir yerde "Sanırım B yöntemi A yönteminden çok farklı bir şey tahmin ediyor , çünkü tahminler çok (% 50-60) daha yüksek ". …

3
Polinom regresyonundan güven bandını anlamak
Aşağıdaki grafikte gördüğüm sonucu anlamaya çalışıyorum. Genellikle, Excel'i kullanmaya ve doğrusal regresyon çizgisine sahip olmaya eğilimliyim, ancak aşağıdaki durumda R kullanıyorum ve komutla polinom regresyonu alıyorum: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() Yani sorularım bununla sınırlı: Mavi regresyon çizgisi etrafındaki gri alan (ok # 1) nedir? Bu, polinom regresyonunun standart …

5
Aykırı değerleri tespit etmenin basit bir yolu var mı?
Aykırı değerleri tespit etmenin basit bir yolu olup olmadığını merak ediyorum. Temel olarak, katılımcıların bir hafta içinde fiziksel aktiviteye katılma sayısı ile bir hafta içinde ev dışında yemek yeme sayısı (fast food) arasında bir korelasyon olan bir projem için, bir dağılım grafiği çizdim ve kelimenin tam anlamıyla aşırı veri noktaları. …

1
“RMSE'nin 2,5 katına” dayalı aykırı değerler
In Kahneman ve Deaton (2010) , yazarlar şunları yazın:††^\dagger Bu gerileme, varyansın% 37'sini açıklar ve 0.67852 kök ortalama kare hatası (RMSE) içerir. Aykırı değerleri ve mantıksız gelir raporlarını ortadan kaldırmak için, log geliri ile tahmini arasındaki farkın mutlak değerinin RMSE'nin 2,5 katını aştığı gözlemleri bıraktık. Bu yaygın bir uygulama mı? …


2
verileri etkileyen veya kapalı verileri bulmak için komşu bilgileri kullanma (R'de)
En yakın komşuların en iyi yordayıcılar olduğu varsayımıyla veri kümem var. Görselleştirilmiş iki yönlü eğimin mükemmel bir örneği Birkaç değerin eksik olduğu bir vakamız olduğunu varsayalım, komşulara ve eğilime göre kolayca tahmin edebiliriz. R'de karşılık gelen veri matrisi (egzersiz için kukla örnek): miss.mat <- matrix (c(5:11, 6:10, NA,12, 7:13, 8:14, …

1
Kement için LARS ve koordinat inişi
L1 düzenli lineer regresyonu takmak için koordinat inişine karşı LARS [1] kullanmanın avantajları ve dezavantajları nelerdir? Ben esas olarak performans yönleriyle ilgileniyorum (sorunlarım Nyüzbinlerce ve p<20'de olma eğilimindedir ). Ancak, diğer görüşler de takdir edilecektir. edit: Soruyu gönderdiğimden beri, chl, Friedman ve arkadaşları tarafından koordinat inişinin diğer yöntemlerden önemli ölçüde …

4
İki popülasyonun örnekten ayrılması
İki grup veri tek bir veri kümesinden ayırmaya çalışıyorum. Popülasyonlardan birinin normal olarak dağıldığını ve numunenin en az yarısı kadar olduğunu varsayabilirim. İkincisinin değerleri, birincinin değerlerinden daha düşük veya daha yüksektir (dağılım bilinmemektedir). Ne yapmaya çalışıyorum normal dağıtılmış nüfusu diğerine kapsayacak üst ve alt sınırları bulmaktır. Benim varsayım bana başlangıç …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.