Çoklu regresyon yapılırken istatistiksel yazılım tarafından aykırı olarak işaretlenmiş durumları silmek mi istiyorsunuz?


23

Çoklu regresyon analizleri yapıyorum ve verilerimdeki aykırı değerlerin silinip silinmemesi gerektiğinden emin değilim. Endişelendiğim veriler SPSS kutucuklarında "daireler" olarak gözüküyor, ancak yıldız işareti yok (bu onların 'o kadar da' kötü olmadıklarını düşünmeme neden oluyor). Endişelendiğim davalar çıktıdaki "casewise diagnostics" tablosunun altında görünüyor - bu nedenle bu davaları silmeli miyim?


Çok teşekkür ederim Charlie ve Epigrad. Artıklarda aykırı değerlerin olup olmadığını değerlendirmek için SPSS'de hangi grafiğe bakacağımı söyleyebilir misiniz? Saçılma lekesi oldukça karışık görünüyor! Verilerde olduğu gibi herhangi bir sorun yok (yanlış girilmemişler gibi) Sadece katılımcılarımdan bazılarının ölçeklerimden daha yüksek puan aldığını düşünüyorum. numunenin geri kalanı.
Anon

3
Tahmini y değerini (tahmin ettiğiniz modele göre verilen) x eksenine ve artıkları y eksenine çizmelisiniz. Öngörülen y değeri yerine, yordayıcılarınızdan / bağımsız değişkenlerinizi x eksenine koyabilirsiniz. Hangi x değerinin outlier davranışına yol açtığını görmek için her biri x ekseninde farklı bir tahminciye sahip birkaç grafik oluşturabilirsiniz. Yine, outlier kaldırılmasına karşı dikkatli olurum; Bunun yerine, dışlayıcı neden oluştuğunu analiz edin.
Charlie

1
Charlie'nin ifadesini yinelemek, "if" yerine önemli olan "neden" dir ve ben de onların kaldırılmasına karşı uyarırdım. SPSS'ye aşina değilim, ama regresyon için kullandığınız özellikler size artık bir arsa verebilmeli veya en azından Charlie'nin önerdiği arsa yapmak için kullanabileceğiniz değerleri verebilmelidir.
Fomite

@Anon İki hesabınızı birleştirdim. Sorunuzu güncelleyebilmeniz ve / veya yorum yapabilmeniz için lütfen kayıt olun.
chl

3
@ user603 Hayır, beni doğru okumazsınız. "Outlier" bir şey ifade etmiyor - özellikle istatistiksel yazılımda otomatik bir prosedür tarafından işaretlendiğinde. “Aykırı” olarak yapılan bir çalışmanın önemli bulgularına dair pek çok örnek var. Verilerinizi sildiğiniz zaman, bir nedenden ötürü olmalıdır. “Rahatsızlar” bir sebep değil.
Fomite

Yanıtlar:


25

İşaretleme outliers bir yargılama çağrısı değildir (veya herhangi bir durumda bir olması gerekmez). İstatistiksel bir model göz önüne alındığında, aykırı değerlerin kesin ve nesnel bir tanımı vardır: Verilerin çoğunluğunun şeklini takip etmeyen gözlemlerdir . Bu gözlemlerin herhangi bir analizin başlangıcında birbirinden ayrılması gerekir, çünkü verilerin büyüklüğüne olan mesafeleri, maksimum olasılıkla (ya da başka herhangi bir dışbükey kayıp fonksiyonuyla) takılan çok değişkenli bir model üzerinde orantısız bir çekiş yapmalarını sağlar.

İşaret etmek önemli olduğu, çok değişkenli aykırı ler sadece güvenilir bir en az kare uyum (veya ML tahmin başka bir modele, ya da başka bir dışbükey kaybı işlevi) gelen artıklar ile tespit edilemez. Basitçe söylemek gerekirse, çok değişkenli aykırı değerler yalnızca, kendileri tarafından sallanmaya yatkın olmayan bir tahmin prosedürü kullanılarak donatılmış bir modelden artıkları kullanılarak güvenilir bir şekilde tespit edilebilir.

Aykırı olanların gerekli olacağı inancı, klasik bir uyumun kalıntılarında göze çarpacak, p-değerlerini delil ölçüsü olarak yorumlamak ya da önyargılı bir örneklemden bir popülasyona ilişkin çıkarımı çekmek gibi istatistiki no-no'ların borçlandırılması gibi başka bir yerde duruyor. Bu bir iyi çok daha eski olabileceğini belki hariç: Gauss kendisi böyle gürültülü gözlemlerinden normal dağılımın parametrelerini tahmin etmek ortanca ve (yerine klasik ortalama ve standart sapmalarının) deli olarak sağlam tahmincisi kullanımını tavsiye (hatta gidiş deli tutarlılık faktörü türetme kadar (1)).

Gerçek verilere dayalı basit bir görsel örnek vermek için, rezil CYG yıldız verilerini düşünün . Buradaki kırmızı çizgi, en az kare uyumu, sağlam bir doğrusal regresyon uyumu kullanarak elde edilen mavi çizgiyi göstermektedir. Buradaki sağlam uyum, aykırı olanları tespit etmek için kullanılabilecek LS uyumuna alternatif olan FastLTS (2) uyumudur (çünkü herhangi bir gözlemin tahmin edilen katsayı üzerindeki etkisinin sınırlandırılmasını sağlayan bir tahmin prosedürü kullanır). Üretilecek R kodu:

library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)

starsCYG veri

İlginç bir şekilde, soldaki 4 gözlem, LS uyumu ile ilgili en büyük kalıntılara ve LS uyumu artıklarının QQ arsalarına (veya Cook'un uzaklığı veya dfbeta) bunların hiçbirini problemli olarak gösteremedi. Bu aslında bir normdur: LS tahminlerini aykırı değerlerin bir arsada öne çıkmayacağı şekilde çekmek için (örneklem büyüklüğüne bakılmaksızın) ikiden fazla ayraç gerekmemektedir. Buna maskeleme etkisi denirve iyi belgelenmiştir. Belki de CYGstars veri setiyle ilgili dikkate değer tek şey iki değişkenli olmasıdır (dolayısıyla sağlam uyumun sonucunu doğrulamak için görsel incelemeyi kullanabiliriz) ve soldaki bu dört gözlemin neden bu kadar anormal olduğuna dair iyi bir açıklama olduğu.

Bu, btw, kuraldan çok istisnadır: küçük örnekleri ve az değişkenleri içeren küçük pilot çalışmalar dışında ve istatistiksel analizi yapan kişinin de veri toplama sürecine dahil olduğu durumlar dışında, daha önce bu konudaki inançların olduğu bir durum yaşamamıştım. aykırıların kimliği aslında doğruydu. Bu arada, doğrulaması kolay sessiz. Aykırı değerlerin bir aykırı algılama algoritması veya araştırmacıların bağırsak hissi kullanılarak tanımlanıp tanımlanmadığına bakılmaksızın, aykırı değerler, bir LS uyumundan elde edilen katsayılar üzerinde anormal bir kaldıraç (veya 'çekme') olan tanım gözlemleridir. Başka bir deyişle, aykırı değerler, numuneden çıkarılmasının LS uyumunu ciddi şekilde etkilemesi gereken gözlemlerdir.

Bunu kişisel olarak hiç deneyimlememiş olmama rağmen, literatürde bir outlier algılama algoritması tarafından outliers olarak işaretlenen gözlemlerin kaba hatalar olduğu veya farklı bir işlem tarafından üretildiği tespit edilen bazı iyi belgelenmiş durumlar vardır. Her durumda, bilimsel olarak garanti edilmez veya yalnızca bir şekilde anlaşılması veya açıklanması durumunda outliers'ı çıkarmak akıllıca değildir. Küçük bir gözlem kabilesi, verilerin ana gövdesinden şimdiye kadar çıkarılırsa, istatistiksel bir prosedürün sonuçlarını tek başına elle çekebiliyorsa, başlı başına bir işlem yapıp yapmamasına bakılmaksızın akıllıca davranmak akıllıca olur (ve doğal olabilir) Bu veri noktaları diğer alanlarda da şüpheli görünmüyor.

(1): bkz. Stephen M. Stigler, İstatistiklerin Tarihi: 1900'den Önce Belirsizlik Ölçümü.

(2): Büyük Veri Kümeleri için LTS Regresyonunun Hesaplanması (2006) PJ Rousseeuw, K. van Driessen.

(3): Yüksek Dağılma Dayanıklı Çok Değişkenli Yöntemler (2008). Hubert M., Rousseeuw PJ ve Van Aelst S. Kaynak: İstatistikçi. Sci. Cilt 23, 92-119.


6
Bu iyi şeyler (+1). Ancak, geleneksel terminolojiyi kötüye kullandığınızı ve “etkili gözlem” e atıfta bulunmak için “dışlayıcı” yı seçtiğinizi düşünüyorum. Kavramlar hem değerlidir, hem de buradakileri iyi değerlendiriyorsunuz, ancak gösterdiğiniz gibi birbiriyle değiştirilemiyorlar. Örneğin, etkili bir gözlem olduğu verilerin çoğunluğu ile tutarlı karakterizasyonu "anormal kaldıraç gözlemler (veya 'çekme') bir LS elde edilen katsayılar uyacak üzerinde" uyabilecek ama çoğu yazarlar tarafından sayılmaz başlı başına
whuber

2
@whuber: İyi nokta. Gerçekten de, sağlam istatistiklerle ilgili son kitapları (örneğin, Robust Statistics: Teori ve Yöntemler. Wiley) bu gözlemlerin (“kaldıraç noktaları” olarak adlandırılır) zararlı olduğunu düşünüyorum. Gerekçe, kullanıcının gözlemlenen ilişkinin gücüne istenmeyen bir güven vermesine neden olan tahmini katsayıların standart hatasını ertelemeleridir. Aykırı değerler olarak iyi kaldıraç noktalarının dikkate alınması, resmi yaklaşımı daha tutarlı kılar: tüm kaldıraç noktalarından sonra , LS / ML uyumunun bir bileşeni olan se üzerinde büyük bir etkisi vardır .
user603

3
+1 Çok güzel bir örnek. Neredeyse dikey olan ve sol üstte bulunan yüksek etkili dördünün bir OLS uyumu sonrasında en büyük kalıntılara sahip olmayacağı iki uyumu gösteren gerçek veriler.
Wayne

19

Genel olarak, "aykırı değerleri" kaldırma konusunda temkinli oluyorum. Regresyon analizi normal olmayan dağılımlı hatalar, heteroskedastisite gösteren hatalar veya diğerlerinden "uzak" olan öngörücülerin / bağımsız değişkenlerin değerlerinin varlığında doğru şekilde uygulanabilir. Aykırı olanlarla ilgili asıl sorun, diğer tüm veri noktalarının takip ettiği doğrusal modeli izlememeleridir. Bunun böyle olup olmadığını nasıl bildin? Sen değil.

Herhangi bir şey varsa, değişkenlerinizin aykırı değerlerini aramak istemezsiniz; bunun yerine, artıklarınızın aykırı değerlerini aramak istiyorsunuz . Bu veri noktalarına bakın. Değişkenleri doğru kaydediliyor mu? Verilerinizin kalanıyla aynı modeli izlememelerinin bir nedeni var mı?

Tabii ki, bu gözlemlerin aykırı değer olarak görünmesinin nedeni (rezidüel teşhise göre) modelinizin yanlış olması olabilir. Aykırı olanları attıysak, gezegenlerin güneşin etrafında mükemmel çevrelerde döndüğüne hala inanacağımızı söylemekten hoşlanan bir profesör var. Kepler Mars'ı attırabilirdi ve dairesel yörünge hikayesi oldukça iyi görünüyordu. Mars, bu modelin yanlış olduğu ve bu gezegeni görmezden gelmesi durumunda bu sonucu kaçıracağı konusunda fikir verdi.

Aykırı değerlerin kaldırılmasının sonuçlarınızı çok fazla değiştirmeyeceğinden bahsettiniz. Bunun nedeni, yalnızca örneğinize göre kaldırdığınız çok az sayıda gözleminiz olması veya modelinizle oldukça tutarlı olması. Bu, değişkenlerin kendileri diğerlerinden farklı görünse de, artıklarının o kadar da iyi olmadığını söyleyebilir. Onları içeride bırakırdım ve eleştirmenlerime bazı puanları kaldırma kararımı haklı çıkarmaya çalışmam.


6
+1 Verileri bir kenara atma çünkü bu bir aykırı. Bazı verilerin neden dışa çıktığını öğrenin .
Fomite

2
bu korkunç bir tavsiye. Aykırı olanların, geri dönüşüm çizgisini kendilerine doğru, geriye kalan bir arsa üzerinde öne çıkmayacakları bir şekilde (veya en kötüsü: orijinal artıklar elde edecek şekilde) çekecek kadar geri kalan verilerden çok uzakta tutmaları çok yaygındır. Veri noktaları). Aslında, tek bir ayraçtan daha fazlasına sahip olduğunuzda, klasik bir regresyondan kalan bir arsa kullanılarak güvenilir bir şekilde tespit edilemediği gösterilebilir. Buna maskeleme etkisi denir ve özellikle birçok gerçek veri örneğinde belgelenmiştir.
user603

Bu arada, bu aynı zamanda Mars örneğini kullanmaktan kaçınmamın nedeni: sadece tek bir dışlayıcı ile uğraşıyorsanız işe yarayan bir prosedürü gösteriyor. Çoğu uygulamada böyle bir garanti yoktur. Genel olarak kusurlu bir metodolojiye yanlış bir güven duygusu verir (ki istatistikçi olarak gerçekten önlemek için göstermemiz gereken şey budur).
user603

15

+1 ila @Charlie ve @PeterFlom; Orada iyi bilgi alıyorsun. Belki de sorunun öncülüne meydan okuyarak burada küçük bir katkı yapabilirim. Bir kutu grafiği tipik olarak (yazılım değişebilir ve SPSS'nin ne yaptığından emin değilim) etiketi, 'outliers' olarak üçüncü (ilk) çeyreğin üzerindeki (altta) Quartile Range'in 1.5 katından daha fazlasını gösteriyor. Bununla birlikte, tüm noktaların aynı dağılımdan geldiği gerçeğini bildiğimizde, bu noktalardan en az birini bulmayı ne kadar beklememiz gerektiğini sorabiliriz ? Basit bir simülasyon bu soruyu cevaplamamıza yardımcı olabilir:

set.seed(999)                                     # this makes the sim reproducable

outVector = vector(length=10000)                  # to store the results
N = 100                                           # amount of data per sample

for(i in 1:10000){                                # repeating 10k times
  X = rnorm(N)                                    # draw normal sample
  bp = boxplot(X, plot=FALSE)                     # make boxplot
  outVector[i] = ifelse(length(bp$out)!=0, 1, 0)  # if there are 'outliers', 1, else 0
}

mean(outVector)                                   # the % of cases w/ >0 'outliers'
[1] 0.5209

Bunun gösterdiği şey, bu tür noktaların, hiçbir şey yolunda gitmese bile, 100 büyüklükteki örneklerle sıkça (>% 50) oluşması beklenebilir. Son cümlenin ima ettiği gibi, kutu grafiği stratejisi ile sahte bir 'dışlayıcı' bulma olasılığı örneklem büyüklüğüne bağlı olacaktır:

   N    probability
  10    [1] 0.2030
  50    [1] 0.3639
 100    [1] 0.5209
 500    [1] 0.9526
1000    [1] 0.9974

Aykırı olanları otomatik olarak tanımlamak için başka stratejiler vardır, ancak bu tür bir yöntem bazen geçerli noktaları 'aykırı değerler' olarak yanlış tanımlayacaktır ve bazen de gerçek aykırı değerleri 'geçerli puanlar' olarak yanlış tanımlayacaktır. (Bunları tip I ve tip II hataları olarak düşünebilirsiniz.) Bu konuda benim düşüncem (bunun için değer), söz konusu noktaları dahil etme / hariç tutma etkilerine odaklanmaktır . Hedefiniz öngörüyse, söz konusu noktaları içeren değerin kök ortalama karesel hata hatasını arttırıp artırmayacağını belirlemek için çapraz doğrulama kullanabilirsiniz . Amacınız açıklama ise, dfBeta bakabilirsiniz(örneğin, söz konusu noktaların dahil edilip edilmemesine bağlı olarak modelinizin beta tahminlerinin ne kadar değiştiğine bakın). Başka bir bakış açısı (tartışmasız en iyisi), belirsiz noktaların atılıp atılmayacağını seçmek zorunda kalmaktan kaçınmak ve bunun yerine sadece sağlam analizler kullanmaktır.


Önerdiğiniz prosedürler, yalnızca gerçek olmayan bir varsayım olan tek bir yönlendirici (veri kümenizin boyutuna bakılmaksızın) varsa güvenilir bir şekilde çalışır. Veriler bir Gauss dağılımından alınmışsa, Tukey bıyık kuralını her iki uçtaki kabaca% 1 oranında göz ardı etmek için kalibre etmiştir. Simülasyonların bunu onaylıyor. Tukey'nin görüşü, gözlemlerin iyi davranıldığı durumlarda verilerin bu kadar küçük bir kısmını dikkate almamaktan kaynaklanan zararların önemsiz tüm pratik kaygılar için olduğu yönündedir. Özellikle verilerin olmadığı durumlarda yararlara ilişkin olarak.
user603

2
Yorumunuz için teşekkür ederiz, @ user603; Bu, düşündürücü bir pozisyon. Hangi yöntemleri önereceğim: muhtemel aykırı değerleri tespit etmek için örneğin dfbeta kullanmak veya atmak için hangi veri noktalarını seçmek yerine, etkilerine karşı koruma olarak sağlam analizler (alternatif bir kayıp fonksiyonu olarak prototipik Tukey'nin bisquare'i) kullanmak mı istiyorsunuz?
gung - Reinstate Monica

Yorumumdaki açıklık eksikliğine işaret ettiğiniz için teşekkür ederim (uzunluk sınırlaması ile sınırlandırıldım). Tabii ki, özellikle ilkleri kastediyorum: dfbeta ve çapraz doğrulama (ikincisi problemlidir, eğer sadece çapraz doğrulama yapmak için kullanılan gözlemler orijinal örnekten rastgele çekilirse. Çapraz doğrulama kullanılabilecek bir örnek Test için kullanılan gözlemlerin geçici olarak ayrık bir örnekten çekildiği kalite kontrol ayarında bulunmalıdır).
user603

Açıkladığınız için teşekkür ederiz, @ user603. Onları daha iyi anlamak için bu fikirlerle oynamak zorunda kalacağım. Sezgim, sonuçlarınızı çarpıtan aykırı noktaları fark etmemek oldukça zor olacak ; aykırı olanların sonuçlarını her iki tarafa da eşit şekilde çarpıtması gerekecek gibi görünüyor, bu durumda betalarınız yaklaşık olarak tarafsız kalır ve sonuçlarınız daha az 'anlamlı' olur.
gung - Reinstate Monica

1
Benim sezgim, sonuçlarınızı çarpıtan aykırı noktaları fark etmemek oldukça zor olacak ama maalesef, gerçek olmadığı gibi. Ayrıca cevabımda verdiğim örneğe bakın.
kullanıcı603

12

Önce artıkların alanlarına bakmalısınız: Normal bir dağılım izler mi (kabaca)? Heteroskedastisite belirtileri gösteriyor mu? Diğer parsellere de bak (SPSS kullanmıyorum, bu yüzden bu programda tam olarak nasıl yapılacağını ya da hangi kutulara bakacağınızı söyleyemiyorum; ancak, yıldızların muhtemelen "o kadar kötü değil" anlamına geldiğini hayal etmek zor. Bunların bazı kriterlere göre sıra dışı puanlar olduğunu).

Sonra, aykırı değeriniz varsa, onlara bakın ve nedenini anlamaya çalışın.

Sonra regresyonu aykırı değerlerle ve aykırı değerlerle deneyebilirsiniz. Sonuçlar benzerse, hayat iyidir. Sonuçların tamamını bir dipnotla bildirin. Benzer değilse, o zaman her iki gerilemeyi de açıklamanız gerekir.


1
Çok teşekkürler Peter. QQ grafiklerini inceledim ve veriler olağanüstü normal görünmüyor. Aykırılıkları sildiğimde, sonuçlarda pek bir fark yaratmıyor gibi görünüyor. Öyleyse, onları içeride bırakmalı mıyım? SPSS'deki casewise diagnostics tablosundaki başkalarının düşüncelerini dinlemek hala ilgimi çekiyor. Çok teşekkürler.
Anon

1
Evet, o zaman onları bir dipnotla bıraktım "silinen birkaç aykırı analiz çok benzer sonuçlar verdi"
Peter Flom - Reinstate Monica

2
Birinin güvenilir bir şekilde aykırı değerlere sahip olduğunu varsayalım bile, bu tür bir prosedürü (ve çoğu zaman, birisini yapamazsınız ) kullanan ve aykırı olanları “anlayamadığınız” / açıklayamadığınız zaman ne yapacağınızla ilgili problemi garip bir şekilde açıklayamayacağınızı düşünebilirsiniz. SPSS'den uzak durma tavsiyesini ikinci olarak öğrendim. -
user603
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.