“RMSE'nin 2,5 katına” dayalı aykırı değerler


13

In Kahneman ve Deaton (2010) , yazarlar şunları yazın:

Bu gerileme, varyansın% 37'sini açıklar ve 0.67852 kök ortalama kare hatası (RMSE) içerir. Aykırı değerleri ve mantıksız gelir raporlarını ortadan kaldırmak için, log geliri ile tahmini arasındaki farkın mutlak değerinin RMSE'nin 2,5 katını aştığı gözlemleri bıraktık.

Bu yaygın bir uygulama mı? Bunun arkasındaki sezgi nedir? İlk etapta iyi tanımlanmamış bir modele dayanarak bir aykırı değer tanımlamak biraz garip görünüyor. Aykırı değerlerin belirlenmesi, modelinizin gerçek değerleri ne kadar iyi öngördüğünden ziyade, makul bir değer oluşturan şey için bazı teorik gerekçelere dayanmamalıdır?


: Daniel Kahneman, Angus Deaton (2010): Yüksek gelir, yaşamın değerlendirmesini iyileştirir ancak duygusal refahı iyileştirmez. Ulusal Bilimler Akademisi Bildirileri Eylül 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107


1
Bir kağıttan alıntı yaptığınızda, her zaman sayfa numarasını içeren bir referans verin .
Ben - Monica

7
Bunun 'ortak uygulama' olup olmadığını söyleyemem, ama umarım değil. “Aykırı değerlerin” otomatik olarak kaldırılması temelde kötü bir fikirdir. Belki modeliniz veya kaldırma kriteriniz iyi değildir, belki de görmezden gelmemeniz gereken yeni bir şey (gerileme başlangıcı, taze olasılıklar uyanış) vardır. // Veri giriş hatası veya ekipman arızası için şüpheli bir değer izleyebiliyorsanız veya değer basitçe grafik dışı saçma (16'2 "boyunda adam, geçen Salı, 61 dakika uçuşu olan w / 25 dakika uçuşu) için farklıdır. SFO-ORD) Ama bir modele uymadığı için değil, bu şekilde kırılan bir girişim biliyorum
BruceET

7
Bu yaklaşımın istatistiksel geçerliliği, RMSE için rapor ettikleri ondalık sayıların saçma sayısıyla yansıtılmaktadır.
Frans Rodenburg

Bu, birkaç ay önce sorduğum bir soruya kaba / kahramanca bir varsayım çözümü gibi geliyor: stats.stackexchange.com/questions/390051/…
Adrian

Yanıtlar:


30

Bu verilerin bırakılmasının nedeni tam burada alıntıda belirtilmiştir: yani "aykırı değerleri ve makul olmayan gelir raporlarını ortadan kaldırmak". Bunların her ikisine birlikte atıfta bulunmaları, aykırı değerlerinin en azından bir kısmının mantıksız değerler olmadığını kabul ettikleri anlamına gelir ve her durumda, yüksek kalıntıya sahip değerlerin neden "mantıksız kabul edilmesi gerektiği" konusunda hiçbir argüman vermezler. gelir değerleri. Bunu yaparak, veri noktalarını etkili bir şekilde kaldırırlar, çünkü artıklar regresyon modellerinde beklenenden daha yüksektir. Başka cevaplarında belirttiğimiz gibi burada , bu modelin varsayımları uymak için gerçekliği gerektiren ve bu varsayımlar ile uyumlu olmayan parçaları gerçek görmezden eşdeğerdir.

Bu yaygın bir uygulama olsun ya da olmasın, korkunç bir uygulamadır. Bunun nedeni, dışarıdaki veri noktalarının üstesinden gelmenin zor olması ve analistin bunları düzgün bir şekilde modellemek istememesi (örneğin, hata terimlerinde daha yüksek basıklık sağlayan bir model kullanarak), bu yüzden gerçekliğin olmayan kısımlarını kaldırmasıdır. istatistiksel modelleme yapma becerilerine uygun olacaklardır. Bu uygulama istatistiksel olarak istenmeyen bir durumdur ve hata açısından varyans ve basıklığı sistematik olarak hafife alan çıkarımlara yol açar. Bu makalenin yazarları, bu aykırı değerlerin kaldırılması nedeniyle verilerinin% 3.22'sini düşürdüklerini bildirmektedir (s. 16490). Bu veri noktalarının çoğu çok yüksek gelirler olacağından, bu, yüksek gelirlerin (kağıtlarının amacı olan) etkisi hakkında sağlam sonuçlar çıkarma yetenekleri konusunda önemli bir şüphe uyandırmaktadır.


Ne cüretle eleştirmek Daniel Kahneman! Şakalar bir yana, bunlar çok iyi puanlar +1.
Tim

11
Kahneman, kitaplarını genelde beğendiğim ve faydalı bulduğum çok iyi bir psikolog. Her birinin elli Nobel ödülü alabilirler - "aykırı değerlerin" toplu olarak kaldırılmasının korkunç bir istatistiksel uygulama olduğu gerçeğini değiştirmezdi.
Ben - Monica

3
Doğal olarak sana katılıyorum. Bunu söylemenin gerekli olduğunu düşünmedim.
Nick Cox

1
@NickCox "Nobel Anma Ödülü" demek istediniz : Eminim ki Nobel tarafından kurulmadığını ve onunla gerçekten bir ilgisi olmadığını biliyorsunuz. Resmi adı görünüşe göre "Alfred Nobel Anısına İktisadi Bilimler Sveriges Riksbank Ödülü".
amip diyor Reinstate Monica

1
Bunu bildiğime eminsin ve gerçekten haklısın. Her zaman yetkili EJMR bir zamanlar benim için "Hayır, Nobel'i asla kazanamayacak" anlamına gelen bu ödülü taşıdı.
Nick Cox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.