Regresyon kullanarak aykırı algılama


11

Regresyon dışlayıcı tespiti için kullanılabilir. Aykırı değerleri kaldırarak bir regresyon modelini geliştirmenin yolları olduğunu anlıyorum. Ancak buradaki temel amaç bir regresyon modeline uymak değil, regresyon kullanarak yalancıları bulmaktır


Dışa dönük olmayan bir modeli taktıktan sonra uyum iyileşirse, bunun aşırı bir değer olduğuna dair kanıtlar vardır. Çok fazla veriniz varsa bu tartışma olabilir, çünkü uyum nispeten daha az geliştirilecektir.
Roman Luštrik

@ RomanLuštrik: Bu aykırı değerlerin çok hesoterik bir tanımıdır. Örneğin, Glen_b'nin cevabında kullanılan aykırı değerlerin görünümü ile tutarlı değildir (ya da bu konuda "Sağlam İstatistikler: Teori ve Yöntemler" gibi ders kitabında kullanılan aykırı değerlerin tanımı ile). Tanımınızı desteklemek için bir kaynak belirtmek ister misiniz?
user603

Referans gösteremiyorum. Tabii ki haklısın, uyumdaki gelişme nedir? İyileşme oldukça öznel bir mesele olabilir ve robotik bir kesme değeri değil, kılavuz olarak kullanılmalı ve durumdan duruma göre değerlendirilmelidir.
Roman Luštrik

Yinelenen Yeniden Ağırlıklandırılmış En Küçük Kareler , verilerdeki aykırı değerleri bulmak için yaygın olarak kullanılan sağlam bir regresyon yöntemidir.
whuber

Yanıtlar:


13

Aykırı değerleri bulmak için regresyon kullanmak için en iyi seçeneğiniz sağlam regresyon kullanmaktır.

Sıradan regresyon, aykırı değerlerden iki şekilde etkilenebilir:

x¯

İkincisi, x-uzayda 'dışa dönük ' bir gözlem etkili bir gözlemdir - çizginin uyumunu ona doğru çekebilir. Yeterince uzaksa, hat etkili noktadan geçecektir:

resim açıklamasını buraya girin

Sol grafikte oldukça etkili bir nokta var ve çizgiyi verilerin büyük bir kısmından oldukça çekiyor. Doğru arsada, daha da uzağa taşındı - ve şimdi çizgi noktadan geçiyor. X değeri bu kadar uç olduğunda, bu noktayı yukarı ve aşağı hareket ettirdikçe, çizgi diğer noktaların ortalamasından ve etkili bir noktadan geçerek onunla birlikte hareket eder.

Verilerin geri kalanıyla mükemmel bir şekilde tutarlı olan etkili bir nokta, bu kadar büyük bir sorun olmayabilir, ancak verilerin geri kalanından bir çizgiden uzak olan bir nokta, çizgiyi verilerden ziyade ona sığdırır.

Eğer sağ arsa bakarsak, kırmızı çizgi - en küçük kareler regresyon çizgisi - vermez hiç bir aykırı olarak aşırı noktasını göstermek - onun kalıntı yerine 0'dır, en az kareler büyük kalıntılar bulunmaktadır hattı verinin ana kısmı!

Bu, bir aykırı değeri tamamen özleyebileceğiniz anlamına gelir .

Daha da kötüsü, çoklu regresyon ile, x-uzayındaki bir aykırı herhangi bir tek x-değişkeni için özellikle sıra dışı görünmeyebilir. Böyle bir noktanın olasılığı varsa, en az kareler regresyonunu kullanmak potansiyel olarak çok riskli bir şeydir.

Sağlam regresyon

Sağlam bir çizgi takarsanız - özellikle etkili dışa doğru sağlam bir çizgi - ikinci arsadaki yeşil çizgi gibi - takarsanız , aykırı değerde çok büyük bir kalıntı vardır.

Gelen bu durumda, sen Aykırı belirlemede umut var - Bir anlamda - - hattına yakın değiller noktalar olacak.


Aykırı değerleri kaldırma

Kesinlikle aykırı değerleri tanımlamak ve böylece kaldırmak için güçlü bir regresyon kullanabilirsiniz.

Ancak, aykırı değerlerden zaten kötü bir şekilde etkilenmeyen sağlam bir regresyon uyumunuz olduğunda, aykırı değerleri çıkarmanız gerekmez - zaten iyi bir modeliniz var.


1
"Eğer ille uç değerleri kaldırmak gerekmez" bazen Aykırı bulma olan çalışmanın amacı (örn dolandırıcılık tanımlama)
user603

1

3
(+1) Güzel cevap, ancak sağlam regresyon yöntemlerinden bahsetmemeniz üzücü. Örneğin, yeşil çizgi sağ alt grafikte nasıl çizilmiştir (ve bu algoritmayı neden diğerlerine tercih ediyorsunuz)? Belki bu bağlantı burada yararlı olabilir: Hızlı lineer regresyon, aykırı değerlere karşı sağlam - tartışmasız, CV üzerinde sağlam regresyonu tartışan en iyi konu.
amip

-2

Aykırı algılama için regresyon kullanılabilir.

Evet. Bu cevap ve Glen_b'in yanıtı buna değiniyor.

Buradaki temel amaç bir regresyon modeline uymak değil, regresyon kullanarak yalancıları bulmaktır

Roman Lustrik'in yorumuna dayanarak, burada (çoklu doğrusal) regresyon kullanarak aykırı değerleri bulmak için bir buluşsal yöntem var.

n

  1. n rtotal

  2. ri

  3. rirtotiri<<rtotali

Bu aday aykırı noktaları bir kenara bırakarak, tüm egzersizi azaltılmış örnekle tekrarlayabiliriz. Algoritmada, regresyon uyumunu kötü bir şekilde etkileyen verilerden örnekler seçiyoruz (bir örneği bir aykırı değer olarak etiketlemenin bir yolu).


1
Bu stratejiyi burada gösterilen veri kümesinde denediniz mi? Daha temel olarak, stratejiniz, aykırı değerlerin, tek bir aykırı değerden fazlası olduğunda bilinen bir yanlışlık olan dışbükey bir kayıp fonksiyonunu en aza indiren bir uyum zincirinin sonuçlarından güvenilir bir şekilde bulunabileceğini iddia etmek anlamına gelir (bu bağlantılar, ilgili sorun için bunu gösterir) çok değişkenli aykırı değerlerin bulunmasına rağmen sonuçlar regresyon için de geçerlidir).
user603

Cevabımı kaldırmaktan mutluluk duyuyorum. Ama önce, verdiğiniz iki referansı da anlamıyorum ve dahası, cevabımı neden yanlış yaptıklarından emin değilim. 'Referans' ilk referans nerede? Orada belirli bir cevaba işaret edebilir misiniz? İkinci referansın hangi sayfası ve satırı burada önemlidir ve 'yanlış' tartışılır?
Theja

1
Üzgünüm, sadece buna geri dönebilirim. Yorum bölümü bir örnek vermek için biraz kısa ve OP'nin sorusu olmadığı için 'Cevap' bölümünü kullanmayacağım. Yine de, bağlandığım veriler üzerinde metodolojinizi denemek için zamanınız oldu mu?
user603
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.