Aykırı değerler doğrusal regresyon analizinde nasıl ele alınmalıdır?


73

Çoğu zaman istatistiksel bir analiste set veri kümesi verilir ve doğrusal regresyon gibi bir teknik kullanılarak bir modele uyması istenir. Veri setine sıklıkla "Ah evet, bu veri noktalarının bir kısmını topladık - yapabileceklerinizi yapın" gibi bir feragatname eşlik eder.

Bu durum hatalı veri olabilecek aykırı değerlerin varlığından büyük ölçüde etkilenen regresyon uyumlarına yol açmaktadır. Aşağıdakiler göz önüne alındığında:

  • Verileri, "formun kötü görünmesi" dışında bir sebep olmadan dışarı atmak hem bilimsel hem de ahlaki açıdan tehlikelidir.

  • Gerçek hayatta, verileri toplayan insanlar, "bu veri setini oluştururken, hangi noktalardan tam olarak kaçtınız?" Gibi soruları cevaplamak için sık sık müsait değillerdir.

Doğrusal regresyon analizinde aykırı değerleri dışlamak için temel olarak hangi istatistiksel testler veya kurallar kullanılabilir?

Çok satırlı regresyon için herhangi bir özel husus var mı?


Yanıtlar:


33

Aykırı olanları dışlamak yerine, güçlü bir regresyon yöntemi kullanabilirsiniz. Örneğin, R'de, rlm()işlev yerine MASS paketindekilm() işlev kullanılabilir. Tahmin yöntemi, aykırı değerlere karşı daha fazla veya daha az sağlam olacak şekilde ayarlanabilir.


Rlm () işlevini kullanıyorsanız, katsayıları ve t-testlerinin üretildiğini görüyorum. Fakat buradan f-testi, R-kare değerlerini nasıl alabilirim? Sanırım haklıysam bu f-testi ve R kare değerlerini basit 'lm' özet sonuçlarından getiremem.
Eric

1
Sağlam bir regresyon için, bir F testinin arkasındaki varsayımlar artık karşılanmamaktadır ve R ^ 2 artık eşdeğer olmayan birkaç yolla tanımlanabilir. Bkz stats.idre.ucla.edu/stata/faq/... Stata için bu konuda bazı tartışma için.
Rob Hyndman


Ama f.robftest adlı komutu f-test sonucunu veren sfsmisc paketinden buluyorum. Bu sonucu rlm f-test istatistiklerini tanımlamak için kullanabilir miyim? Ayrıca, değerleri 1 - toplam (artıklar (rlm (y ~ x)) ^ 2) / sum ((y-ortalama (y)) ^ 2) gibi basit bir şekilde R kare matematiksel formülüne değerleri girerek R karesi alıyor gibi görünüyorum. . T-test değerlerinin katsayıların önemini kontrol etmesi için, t-test değerlerini% 95 güvenilirlik seviyesinden t-değerleri ile karşılaştırdığım özetten (rlm (y ~ x)) alıyorum. Bu yöntemleri kullanabilir miyim?
Eric

22

Bazen aykırı değerler kötü veridir ve yazım hataları gibi dışlanmaları gerekir. Bazen Wayne Gretzky veya Michael Jordan'dırlar ve saklanmaları gerekir.

Aykırı değer tespit yöntemleri şunları içerir:

Tek değişkenli -> kutu grafiği. çeyrekler arası aralığın dışında 1,5 katı dışında bir aykırı değerdir.

İki değişkenli -> güvenle elips ile saçılma grafiği. dışında, örneğin% 95 güven elipsinin bir aykırı olduğu söylenebilir.

Çok değişkenli -> Mahalanobis D2 mesafe

Bu gözlemleri aykırı değerler olarak işaretleyin.

Herhangi bir sistematik model olup olmadığını görmek için lojistik regresyon (Y = IsOutlier üzerinde) çalıştırın.

Herhangi bir alt popülasyonun temsilcisi olmadığını gösterebileceklerini kaldırın.


Ve hala aykırı değeriniz varsa, doğrusaldan farklı bir model kullanmayı düşünün. Örneğin, davranış gibi bir güç yasasına sahip bir model kullanıyorsanız, Michael Jordan artık bir uygulayıcı değildir (modellerin onu barındırma kabiliyeti açısından).
drevicko

1
Burada söylenenlerin çoğu ile katılıyorum ama "ek dikkatli eklemek istiyorum 1.5 katı çeyrekler arası aralığının dışında uç değer mi " bir olan kongre , herhangi kuramsal temeli olan bir kural. Veri noktalarını hariç tutmak için bir gerekçe olarak kullanılmamalıdır.
mkt

20

Aykırı olanları dışlamak için söylenecek bir şey olduğunu düşünüyorum. Verileri özetlemek için bir regresyon çizgisi olması gerekiyordu. Kaldıraç nedeniyle, veri noktalarınızın% 1'inin eğimi% 50 oranında etkilediği bir durum olabilir.

Aykırı olanları dışladığınızı kimseye söylememeniz, ahlaki ve bilimsel açıdan tehlikelidir. Onları gösterdiğiniz sürece şöyle diyebilirsiniz:

“Bu regresyon çizgisi, verilerin çoğu için oldukça iyi uyuyor. Bu eğilime uymayan bir değerin geldiği zamanın% 1'i, ancak hey, çılgın bir dünya, hiçbir sistem mükemmel değil”


1
"hey, bu çılgın bir dünya, hiçbir sistem mükemmel değil" +1 arkadaşım için! :)
bartektartanus

1
Yine de diğer modelleri düşünün. Dünya, gerçek veriler olan kaldırılmış "aykırı" dolu ise, gerçekten önemli bir şeyi tahmin etmeme ile sonuçlanır. Pek çok doğal işlem, nadir aşırı olaylar ile davranış gibi güç yasasına sahiptir. Doğrusal modeller bu verilere uygun gibi görünebilir (çok iyi olmasa da), ancak birini kullanmak ve "aykırı olanları" silmek, genellikle bilinmesi gereken aşırı olayları kaçırmak anlamına gelir!
drevicko

10

Silinmez kalem,

Sorunuzu kelimenin tam anlamıyla ele alarak, doğrusal bir regresyon analizinde aykırı değerleri dışlamak için bir temel olarak kullanılabilecek hiçbir istatistiksel test veya kural bulunmadığını (belirli bir gözlemin aykırı olup olmadığına karar vermemek yerine) kullanılabileceğini savunuyorum . Bu konu alan bilgisinden gelmelidir.

Sanırım başlamanın en iyi yolu, aykırı değerlerin, özellikle de topladığınız diğer değişkenler göz önüne alındığında bile anlamlı olup olmadığını sormak. Örneğin, çalışmanızda çeşitli spor yaralanmaları kliniklerinden alınan 600 kiloluk bir kadının olması gerçekten mantıklı mı? Veya, bir kişinin sadece 60 yaşındayken 55 yıl ya da mesleki deneyim listelemesi garip değil mi? Ve bunun gibi. Umarım, daha sonra bunları atmak veya sizin için kayıtları iki kez kontrol etmek için veri derleyicilerini almak için makul bir temeliniz vardır.

Ayrıca Rob ve Chris tarafından önerildiği gibi, güçlü regresyon yöntemleri ve bırakılmış gözlemlerin şeffaf raporlanmasını öneririm.

Umarım bu yardımcı olur, Brenden



5

Aykırı değerlerin algılanması için özellikle hazırlanmış ve daha sonra bu aykırı değerlerin doğrusal regresyonunuzdan kaldırılıp kaldırılmayacağını dikkate alan iki istatistiksel mesafe ölçümü vardır.

Birincisi Cook'un mesafesi. Bunun güzel bir açıklamasını Wikipedia'da bulabilirsiniz: http://en.wikipedia.org/wiki/Cook%27s_distance .

Cook'un uzaklığı ne kadar yüksekse, gözlem o kadar etkilidir (regresyon katsayısına etkisi). Gözlemin kaldırılmasını göz önünde bulunduracak tipik kesme noktası, Cook'un mesafesi = 4 / n'dir (n, örneklem büyüklüğüdür).

İkincisi, Wikipedia ile de kapsanan DFFITS'dir: http://en.wikipedia.org/wiki/DFFITS . Bir gözlemi kaldırmayı düşünecek tipik kesme noktası, k'nin değişken sayısı ve n'nin örnek büyüklüğü olduğu 2 kat sqrt (k / n) DFFITS değeridir.

Her iki ölçüm de genellikle benzer gözlem seçimine yol açan benzer sonuçlar verir.


3

Çöp içeri çöp dışarı....

Doğrusal regresyondan tam olarak faydalanmanın anlamı, gürültünün normal bir dağılımı takip etmesidir. İdeal olarak çoğunlukla veriye ve biraz gürültüye sahip olursunuz .... çoğunlukla gürültü ve biraz veriye değil. Artıklara bakarak lineer uyumdan sonra artıkların normalliğini test edebilirsiniz. Girdi verilerini, belirgin, göze çarpan hatalar için doğrusal uyumdan önce de filtreleyebilirsiniz.

Genelde normal dağılıma uymayan çöp girdi verilerinde bazı gürültü türleri:

  • Rakamlar eksik veya elle girilen verilerle eklenmiş (10 ya da daha fazla faktör kapalı)
  • Yanlış veya yanlış bir şekilde dönüştürülmüş birimler (gram - kilo vs pound; metre, ayak, mil, km), muhtemelen birden fazla veri kümesini birleştirmekten (Not: Mars Orbiter bu şekilde kaybolduğu düşünülüyor, bu yüzden NASA roket bilim adamları bile bunu yapabilir hata)
  • "Geçerli değil" veya "kullanılamaz sütun" gibi nümerik olmayan bir şey demek için 0, -1, -99999 veya 99999 gibi kodların kullanılması ve bunu geçerli verilerle birlikte doğrusal bir modele boşaltmak

Her sütun için "geçerli veri" nin ne olduğuna ilişkin bir özellik yazmak, geçersiz verileri etiketlemenize yardımcı olabilir. Örneğin, bir insanın cm cinsinden boyu 100-300 cm arasında olmalıdır. Eğer bir yazım hatası olan yükseklik için 1.8 bulursanız ve 1.8m olduğunu varsayarsanız ve 180'e değiştirirseniz - filtrelemenin mümkün olduğu kadar çok belgelenmesi genellikle daha güvenli ve en iyi şekilde yapıldığını söyleyebilirim.


1

Doğrusal bir regresyon için, tekrarlanan bir medyan düz çizgi uyumu kullanabilirsiniz.


0

Hariç tutma için temel olarak kullanılacak istatistiksel testler: - standartlaştırılmış artıklar - kaldıraç istatistikleri - Yukarıdaki ikinin bir birleşimi olan Cook mesafesi.

Deneyimden, dışlama, hatalı veri girişi durumlarıyla sınırlı olmalıdır. Doğrusal regresyon modelinde yeniden yükselme aykırı değerleri çok iyi bir uzlaşma yöntemidir. Bunun R'deki uygulaması Rob tarafından sunulmaktadır. Harika bir örnek burada: http://www.ats.ucla.edu/stat/r/dae/rreg.htm

Dışlama gerekliyse, 'tek kural', Dfbeta istatistiği ile ilgilidir (outlier silindiğinde yapılan tahminde yapılan ölçümler değişir). aykırı.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.