Çok değişkenli verilerde aykırı değerleri belirlemenin en iyi yolu nedir?

94

En az üç değişkenli çok değişkenli büyük bir veri setim olduğunu varsayalım. Aykırı olanları nasıl bulabilirim? İkili saçılım grafikleri, 2 boyutlu alt alanların herhangi birinde bir ana hat olmayan bir boyutta bir 3 boyutlu varlığın mümkün olması nedeniyle çalışmaz.

Bir regresyon problemini değil, gerçek çok değişkenli verileri düşünüyorum. Dolayısıyla, güçlü regresyon veya bilgisayar kaldıracı içeren cevaplar yararlı değildir.

Bir olasılık, ana bileşen puanlarını hesaplamak ve ilk iki puanın iki değişkenli dağılımında bir aykırı değer aramaktır. İşe yarayacak mı? Daha iyi yaklaşımlar var mı?

multivariate-analysis outliers

— Rob Hyndman
kaynak

3

Bir dağılım grafiği matrisi yakalamazsa, bir 3B dağılım grafiği deneyebilirsiniz. Elbette bu 4D'ye kadar işe yaramayacak, ama sonra zaman olarak 4. bir boyut yaratabilir ve bir film yapabilirsiniz. :)

— Shane

Peki ya (hiyerarşik) küme analizi?

— Andrej

11

Renk tonunda 5. D, renk yoğunluğunda 6. D, punto boyutunda 7. D ve gidebiliriz ;-)

26

Göz at mvoutlier @drknexus önerdiği gibi, sipariş sağlam mahalonobis mesafeler dayanır paketin.

— chl
kaynak

4

Ben şahsen bu pakete inanmıyorum! Bence bu sadece bilim gürültüsü. Bu tip teoriler simüle edilmiş veriler için çok iyidir, gerçek veriler için ise sadece pffff. Bu paketi örneğin outliers'ı tespit etmek için kullandım :-) ne yazık ki verilerimin yarısı outliers olarak algılandı: Herhangi bir yorumunuz varsa, görmekten mutlu olurum. Çok fazla aykırı var: ancak bunları verilerimizden çıkarmalı mıyız? Inanmıyorum.

— Öğrenci

1

Bunun ne zaman ve neden işe yaradığını açıklayabilir misiniz?

— eric_kernfeld

19

Robin Girard'ın cevabının 3 ve muhtemelen 4 boyut için oldukça iyi çalışacağını, ancak boyutsallığın laneti bunun ötesinde çalışmasını engelleyeceğini düşünüyorum. Bununla birlikte önerisi, çapraz onaylanmış çekirdek yoğunluğu tahminini ilk üç ana bileşen puanına uygulamak olan ilgili bir yaklaşıma götürdü. O zaman çok yüksek boyutlu bir veri seti hala tamamıyla kullanılabilir.

Özet olarak, i = 1 - n

Xi olmayan veri setinden elde edilen ilk üç temel bileşen puanının yoğunluk tahminini hesaplayın.
Xi'nin 1. adımda tahmin edilen yoğunluk için olasılığını hesaplayın.

sonu

Li'yi sıralayın (i = 1, .., n için) ve aykırı değerler, bazı eşik değerlerin altında olabilir. Neyin iyi bir eşik olacağından emin değilim - bu konuda yazı yazan kişi için bunu bırakacağım! Bir olasılık, log (Li) değerlerinin bir kutu grafiğini yapmak ve negatif uçta hangi aykırı değerlerin tespit edildiğini görmektir.

— Rob Hyndman
kaynak

Bu cevabın için teşekkür ederiz (yorum yapmalı mıyım?) Daha önce de bahsettiğim gibi, eğer parametrik yapısal varsayımlar yaparsanız Zengin cevap yüksek sorusuna bir yorum olarak sorun olmaz (1000 bile çalışabilir).

— robin girard

@ rob "Neyin iyi bir eşik olacağından emin değilim", bahsettiğim çoklu test prosedürünün amacı bu olurdu ... ama işlerin doldurulması gerektiğine tamamen katılıyorum. aykırı saptama! kim bir makale yazmak ister :)?

— robin girard

4

(-1) Bu soruya kabul edilen cevabın ne yararlı (örneğin çok belirsiz ve uygulanmadı) ne de bilimsel olarak doğru olması (yanıltmasa bile: bildiğim kadarıyla) ilgili edebiyat).

— user603

6

(-1) bu yanlış bir cevap gibi görünüyor - bu yöntem aykırı noktaları algılamayacak! PCA tarafından 2B-düzlemde yansıtılan noktalardan 3B gözleme benzeri bir nokta bulutu ve düzlemden çok uzakta olan 1 dışa vurma noktası düşünmek kolaydır, ancak izdüşümü yansıtılan bulutun tam ortasında, yani "çekirdek yoğunluğu" 2B-düzlemdeki nokta bir outlier olmasına rağmen yüksek olacaktır.

— Kochede,

1

PCA'nın burada sorunlu olacağını düşünüyorum. PCA, varyansa ana katkıları düşünen bir yaklaşımdır. Fakat burada asıl amaç, aykırı noktaları bulmaktır - "çatlakların arasına düşmez" değil mi?

— Omry Atia

18

Pedagojik bir özetini, çeşitli yöntemlerin (1) 'de bulabilirsiniz.

Bazı - iyi - orada listelenen çeşitli yöntemlerin sayısal karşılaştırmaları için, (2) ve (3) işaretlerini kontrol edebilirsiniz .

genellikle kitaplarda bulunan birçok eski (ve daha az ayrıntılı) sayısal karşılaştırma vardır. Örneğin, bir tane (4) sayfa 142-143'te bulabilirsiniz.

Burada tartışılan tüm yöntemlerin, özellikle rrcov paketi aracılığıyla açık kaynaklı bir R uygulamasına sahip olduğuna dikkat edin .

(1) P. Rousseeuw ve M. Hubert (2013) Çok Değişkenli Yer ve Dağılımın Yüksek Dağılım Tahminleri.
(2) M. Hubert, P. Rousseeuw, K. Vakili (2013). Sağlam kovaryans tahmin edicilerin şekil önyargısı: ampirik bir çalışma. İstatistiksel Makaleler.
(3) K. Vakili ve E. Schmitt (2014). FastPCS ile çok değişkenli ayraçları bulma. Hesaplamalı İstatistik ve Veri Analizi.
(4) Maronna RA, Martin RD ve Yohai VJ (2006). Sağlam İstatistikler: Kuram ve Yöntemler. Wiley, New York.

— user603
kaynak

Ben simüle verilere dayanan kağıtlar önermem, ilk iki belgenin simüle verilere dayandığını düşünüyorum. Ben gerçek veriler üzerinde çalışıyorum ve nadiren bu verilerde güçlü aykırı değerler bulunabilir. Şahsen asla çok güçlü aykırı olan bir veri seti bulamadım. Herhangi bir gerçek veri biliyorsanız, lütfen paylaşmaktan çekinmeyin

— Öğrenci

Merhaba Nemo: Yorumunuz için teşekkürler. Aslında, bu modellerin birçoğunun (hepsi için üzücü olmayan bir biçimde) mümkün olan en kötü aykırı konfigürasyonun bilinen olduğu ve bunların tipik olarak bu modellerin simülasyonunu yapıp değerlendireceği yapılandırmalar olduğu ortaya çıktı. Belki bunu bir soru olarak formüle edebilirsiniz? Bazı referanslara işaret etmekten mutlu olurum!

— user603

1

Zaten genel bir soru sordum. Gönderimi

— Öğrenci

13

Bir çeşit "bir tane test dışı bırakma algoritması bırakın" (n, veri sayısı):

i = 1 - n

atma ile elde edilen veri setinin bir yoğunluk tahmini hesaplama uzaklıkta $X_i$ . (Bu yoğunluk tahmini, eğer boyut yüksekse, örneğin yoğunluk tahmininin kolay olduğu bir gauss varsayımına sahipse, bazı varsayımlarla yapılmalıdır: ortalama ve kovaryans
, adım 1'de hesaplanan yoğunluk için olasılığını hesaplayın $X_i$ . buna diyoruz . $L_i$

sonu

(i = 1, .., n için) sıralayın ve hangisinin iyi olmadığını söylemek için çoklu hipotez test prosedürünü kullanın ... $L_i$

Bu, eğer n yeterince büyükse işe yarayacak ... ayrıca aykırı grupların "gruplarına" sahip olduğunuzda daha ilgili olabilen "dışarıda bırakma stratejisini" de kullanabilirsiniz ...

— Robin Girard
kaynak

Bu, kaç tane aykırıma sahip olduğunuzu bilmediğiniz durumlarla nasıl başa çıkacaktı, örneğin N-1 puanları aykırı noktaları içerdiğinden beri bir önyargıya sahipken?

— Benjamin Bannier,

1

n yeterince büyükse ve aykırı sayısı azsa bu önyargı ihmal edilebilir düzeydedir. O zaman çok sayıda aykırı değer varsa, maibe aykırı değil ve yine de, bahsettiğim gibi, dışarıda bırakma stratejisini kullanabileceğinizi belirtmiştim ... (bu durumda, NP zor olun ...) ve k bilmiyorsanız, k için birçok değer deneyebilir ve en ilgili tutar.

— robin girard

1

Bu güzel bir fikir, ancak doğru bir şekilde anladıysam, "outlier" fikrini , diğerlerinden uzak olan bir veri kümesinde herhangi bir değeri içerecek şekilde genişletiyor gibi görünüyor . Örneğin, 43 tam sayıdan oluşan {-110 [1] -90, 0, 90 [1] 110} kümesinde, işleminiz 0 değerini (bu sayıların medyanı !) Benzersiz "dışlayıcı" olarak tanımlamaz mı ? "?

— whuber

@whuber iyi bir soru! yapısal varsayım olmadan sıfır kaldırılabilir. Ancak dağılımın tekdüze olduğunu varsayabilir ve yoğunluğu buna göre hesaplayabilirsiniz. Bu durumda yapısal varsayım (tekdüzelik), sıfıra "normal" bir değer olarak bakma işlemine yardımcı olacaktır. Sonunda bunun normal olduğunu düşünüyorsunuz çünkü kafanızda bu tür bir "yapısal varsayım" var :)?

— robin girard

3

L_{i}

$L_i$

L_{i}

$L_i$

12

Asgari hacim sınırlandırma elipsoidinin destek noktaları arasında "aykırı" adaylar bulabilirsiniz. ( Bu noktaları oldukça yüksek boyutlarda, hem tam olarak hem de yaklaşık olarak bulmak için etkili algoritmalar , 1970'lerde bir kağıtlar yelpazesinde icat edildi, çünkü bu problem, deneysel tasarımdaki bir soruyla yakından bağlantılıydı.)

— whuber
kaynak

12

Gördüğüm yeni yaklaşım, IT Jolliffe Temel Bileşenleri Analizi idi . Verilerinizde bir PCA çalıştırıyorsunuz (Not: PCA, başlı başına oldukça faydalı bir veri arama aracı olabilir), ancak ilk birkaç Temel Bileşene (PC) bakmak yerine, son birkaç bilgisayarı çiziyorsunuz. Bu bilgisayarlar değişkenleriniz arasındaki mümkün olan en küçük varyans ile doğrusal ilişkilerdir. Böylece, verilerinizdeki "kesin" veya kesin çok değişkenli ilişkilere yakın olduğunu tespit ederler.

Son PC için PC puanlarının bir grafiği, her bir değişkene ayrı ayrı bakarak kolayca tespit edilemeyen aykırılıkları gösterecektir. Bir örnek boy ve kilo içindir - bazıları "ortalamanın üzerinde" yüksekliğe ve "ortalamanın altında" ağırlığa sahip olanların boy ve kilolarının son PC'leri tarafından (bunların pozitif korelasyona sahip oldukları varsayılarak) algılanacaktır " aşırı "bireysel olarak (örneğin 180cm ve 60kg olan biri).

— probabilityislogic
kaynak

11

Etki fonksiyonlarından bahseden kimseyi görmedim . Bu fikri ilk önce Gnanadesikan'ın çok değişkenli kitabında gördüm .

Bir boyutta bir aykırı ya çok büyük ya da çok küçük bir değerdir. Çok değişkenli analizde, verilerin büyüklüğünden alınan bir gözlemdir. Ama aykırı için aşırı tanımlamak için hangi metriği kullanmalıyız? Çok fazla seçenek var. Mahalanobis mesafesi sadece bir tanesidir. Her çeşit outlier aramanın boşuna ve üretken olduğunu düşünüyorum. Dışlayıcıyı neden umursadığını soruyorum.? Bir ortalama tahmin ederken, bu tahminde çok fazla etkiye sahip olabilirler. Sağlam tahmin ediciler zayıf kilolu ve aykırı ağırlıkları barındırır, ancak bunlar resmen test etmez. Şimdi regresyonda, aykırı değerler - kaldıraç noktaları gibi - modeldeki eğim parametreleri üzerinde büyük etkiler yaratabilir. İki değişkenli verilerle, tahmin edilen korelasyon katsayısını ve üç veya daha fazla boyutta çoklu korelasyon katsayısını aşırı derecede etkileyebilirler.

Etki işlevleri Hampel tarafından sağlam kestirimde bir araç olarak tanıtıldı ve Mallows kullanımlarını savunan yayınlanmamış güzel bir yazı yazdı. Etki işlevi, n-boyutlu alanda olduğunuz noktanın ve parametrenin bir işlevidir. Temelde parametre tahmini ile hesaplamadaki nokta ile kalan nokta arasındaki farkı ölçer. İki tahminin hesabını yapmak ve farkı almaktan ziyade sık sık bunun için bir formül türetebilirsiniz. Ardından, sürekli etkinin konturları, bu parametrenin tahmini açısından aşırı olan yönü size söyler ve bu nedenle n-boyutlu alanda neresi arayacağınızı söyler.

Daha fazla bilgi için 1983 tarihli makaleme Amerikan Matematik ve Yönetim Bilimleri Dergisi'ndeki "Etki fonksiyonu ve veri doğrulamasına uygulanması" başlıklı makaleme bakabilirsiniz. Veri doğrulamasında, verilerin kullanım amacını etkileyen faktörleri araştırmak istedik. Benim düşüncem, dikkatinizi, tahmin etmek istediğiniz parametreleri büyük ölçüde etkileyen ve diğerlerini çok fazla önemsemeyen aykırı yönlere yönlendirmeniz gerektiğidir.

— Michael Chernick
kaynak

1

+1 Çok güzel bir fikir, özellikle analizin amacına tutarlı bir odaklanma için.

— whuber

Benzer bir fikir Rastgele Örneklem Konsensüsüdür ( RANSAC ).

— GeoMatt22

8

Bu bir aşılama olabilir, ancak veriler üzerinde denetimsiz bir Rastgele Ormanı eğitebilir ve aykırı değerlerin tespiti için nesne yakınlık ölçüsünü kullanabilirsiniz. Daha fazla ayrıntı burada .

4

RandomForest paketindeki outlier işlevine göz atın lib.stat.cmu.edu/R/CRAN/web/packages/randomForest/…

— George Dontas

7

3 gibi ılımlı boyutlar için, başka yerlerde önerildiği gibi bir çeşit çekirdek çapraz doğrulama tekniği makul gözükür ve bulabildiğim en iyisidir.

Daha yüksek boyutlar için, sorunun çözülebilir olduğundan emin değilim; oldukça geniş ölçüde 'boyutluluk laneti' topraklarına giriyor. Mesele şu ki, uzaklık fonksiyonlarının dağıtımlardan türetilen mesafeler de dahil olmak üzere boyutsallığı arttırırken çok hızlı bir şekilde çok büyük değerlere yakınlaşma eğilimi göstermesidir. Eğer bir aykırı ayı "diğerlerine göre nispeten daha büyük bir mesafe işlevine sahip bir nokta" olarak tanımlıyorsanız ve tüm mesafe işlevleriniz birleşmeye başlar çünkü yüksek boyutlu bir uzaydasınız demektir. .

Muhtemel bir sınıflandırma problemine dönüştürmenize ya da en azından alanınızı "gürültü boyutlarına" ve "bilgilendirici boyutlara" ayırmanıza olanak tanıyan bir çeşit dağıtım varsayımı olmadan, bence yüksek boyutlu alanların geometrisi aykırı değerlerin kolay veya en azından sağlam bir şekilde tanımlanmasını yasaklayacaktır.

— Zengin
kaynak

Zaten verdiğim prosedür, dediğim gibi, bir gauss varsayımı kullanılarak büyük boyutta uygulanabilir. Boyut, örneklem boyutuna göre gerçekten büyükse (yani p >> n), o zaman, az miktarda bir varsayım yapabilir (Gauss dağılımınızın parametrelerinin örneğin düşük boyutlu bir alanda bulunduğunu varsayabilir ve bir eşik değer tahmini prosedürü kullanabilirsiniz). Parametrelerin tahmini için ...

— robin girard

1

Boyutluluk lanetinin, dağıtım varsayımları olmadan bir çözümü engellediği konusunda çok anlayışlı (yalnızca delice miktarda veriye sahip değilseniz veya boyut küçük değilse)

— John Robertson

6

Bir regresyon problemi değil, "gerçek çok değişkenli veriler" demediğinizi söylerken ne demek istediğinizi bilmiyorum. İlk tepkim, belirli bir IV veya DV belirtmenizi gerektirmediğinden Mahalanobis mesafesini hesaplamak olacaktır, fakat çekirdeğinde (anladığım kadarıyla) kaldıraç istatistiği ile ilgilidir.

— russellpierce
kaynak

Evet, her bir gözlemin Mahalanobis mesafesini verilerin ortalamalarından hesaplayabilirdim. Ancak, ortalamadan en uzak mesafeye sahip gözlemler mutlaka çok değişkenli aykırı değerler değildir. Yüksek korelasyonlu iki değişkenli bir dağılım grafiğini düşünün. Bir aykırı ana nokta bulutu dışında olabilir, ancak ortalamadan uzak olamaz.

— Rob Hyndman

5

Kimsenin bunu yaptığının farkında değilim, ancak böyle bir sorun yaşadığımda genellikle boyutsallığı azaltmayı denemek isterim. Manifold öğrenme veya doğrusal olmayan boyutsallık azaltma yöntemlerine bakabilirsiniz .

Bir örnek bir Kohonen haritası olabilir . R'nin iyi bir referansı " R'de Kendini ve Süper Düzenleyen Haritalar: kohonen Paketi" dir .

— Shane
kaynak

4

İlk cevabım, eğer veriler üzerinde çok değişkenli regresyon yapabilirseniz, o regresyondaki kalıntıları aykırı noktaları belirlemek için kullanmaktır. (Bunun bir regresyon sorunu olmadığını söylediğini biliyorum, bu yüzden bu sana yardım etmeyebilir, özür dilerim!)

Bunlardan bazılarını daha önce yanıtladığım , bazı örnek R kodlarına sahip olan bir Stackoverflow sorusundan kopyalıyorum

İlk önce, bazı veriler yaratacağız ve sonra bunu bir outlier ile etiketleyeceğiz;

> testout<-data.frame(X1=rnorm(50,mean=50,sd=10),X2=rnorm(50,mean=5,sd=1.5),Y=rnorm(50,mean=200,sd=25)) 
> #Taint the Data 
> testout$X1[10]<-5 
> testout$X2[10]<-5 
> testout$Y[10]<-530 

> testout 
         X1         X2        Y 
1  44.20043  1.5259458 169.3296 
2  40.46721  5.8437076 200.9038 
3  48.20571  3.8243373 189.4652 
4  60.09808  4.6609190 177.5159 
5  50.23627  2.6193455 210.4360 
6  43.50972  5.8212863 203.8361 
7  44.95626  7.8368405 236.5821 
8  66.14391  3.6828843 171.9624 
9  45.53040  4.8311616 187.0553 
10  5.00000  5.0000000 530.0000 
11 64.71719  6.4007245 164.8052 
12 54.43665  7.8695891 192.8824 
13 45.78278  4.9921489 182.2957 
14 49.59998  4.7716099 146.3090 
<snip> 
48 26.55487  5.8082497 189.7901 
49 45.28317  5.0219647 208.1318 
50 44.84145  3.6252663 251.5620

Verileri grafiksel olarak incelemek çoğu zaman yararlıdır (beyniniz aykırı değerlerin tespit edilmesinde matematikten daha iyidir)

> #Use Boxplot to Review the Data 
> boxplot(testout$X1, ylab="X1") 
> boxplot(testout$X2, ylab="X2") 
> boxplot(testout$Y, ylab="Y")

Daha sonra kritik kesme değerlerini hesaplamak için istatistikleri kullanabilirsiniz, burada Lund Testi'ni kullanın (Bkz. Lund, RE 1975, "Lineer Modellerde Aykırı Değerler için Yaklaşık Test Tabloları", Technometrics, cilt 17, no. 4, s. 473 -476. ve Prescott, S. 1975, "Lineer Modellerde Aykırı Değerler İçin Yaklaşık Bir Test", Technometrics, cilt 17, no. 1, sayfa 129-132.)

> #Alternative approach using Lund Test 
> lundcrit<-function(a, n, q) { 
+ # Calculates a Critical value for Outlier Test according to Lund 
+ # See Lund, R. E. 1975, "Tables for An Approximate Test for Outliers in Linear Models", Technometrics, vol. 17, no. 4, pp. 473-476. 
+ # and Prescott, P. 1975, "An Approximate Test for Outliers in Linear Models", Technometrics, vol. 17, no. 1, pp. 129-132. 
+ # a = alpha 
+ # n = Number of data elements 
+ # q = Number of independent Variables (including intercept) 
+ F<-qf(c(1-(a/n)),df1=1,df2=n-q-1,lower.tail=TRUE) 
+ crit<-((n-q)*F/(n-q-1+F))^0.5 
+ crit 
+ } 

> testoutlm<-lm(Y~X1+X2,data=testout) 

> testout$fitted<-fitted(testoutlm) 

> testout$residual<-residuals(testoutlm) 

> testout$standardresid<-rstandard(testoutlm) 

> n<-nrow(testout) 

> q<-length(testoutlm$coefficients) 

> crit<-lundcrit(0.1,n,q) 

> testout$Ynew<-ifelse(testout$standardresid>crit,NA,testout$Y) 

> testout 
         X1         X2        Y    newX1   fitted    residual standardresid 
1  44.20043  1.5259458 169.3296 44.20043 209.8467 -40.5171222  -1.009507695 
2  40.46721  5.8437076 200.9038 40.46721 231.9221 -31.0183107  -0.747624895 
3  48.20571  3.8243373 189.4652 48.20571 203.4786 -14.0134646  -0.335955648 
4  60.09808  4.6609190 177.5159 60.09808 169.6108   7.9050960   0.190908291 
5  50.23627  2.6193455 210.4360 50.23627 194.3285  16.1075799   0.391537883 
6  43.50972  5.8212863 203.8361 43.50972 222.6667 -18.8306252  -0.452070155 
7  44.95626  7.8368405 236.5821 44.95626 223.3287  13.2534226   0.326339981 
8  66.14391  3.6828843 171.9624 66.14391 148.8870  23.0754677   0.568829360 
9  45.53040  4.8311616 187.0553 45.53040 214.0832 -27.0279262  -0.646090667 
10  5.00000  5.0000000 530.0000       NA 337.0535 192.9465135   5.714275585 
11 64.71719  6.4007245 164.8052 64.71719 159.9911   4.8141018   0.118618011 
12 54.43665  7.8695891 192.8824 54.43665 194.7454  -1.8630426  -0.046004311 
13 45.78278  4.9921489 182.2957 45.78278 213.7223 -31.4266180  -0.751115595 
14 49.59998  4.7716099 146.3090 49.59998 201.6296 -55.3205552  -1.321042392 
15 45.07720  4.2355525 192.9041 45.07720 213.9655 -21.0613819  -0.504406009 
16 62.27717  7.1518606 186.6482 62.27717 169.2455  17.4027250   0.430262983 
17 48.50446  3.0712422 228.3253 48.50446 200.6938  27.6314695   0.667366651 
18 65.49983  5.4609713 184.8983 65.49983 155.2768  29.6214506   0.726319931 
19 44.38387  4.9305222 213.9378 44.38387 217.7981  -3.8603382  -0.092354925 
20 43.52883  8.3777627 203.5657 43.52883 228.9961 -25.4303732  -0.634725264 
<snip> 
49 45.28317  5.0219647 208.1318 45.28317 215.3075  -7.1756966  -0.171560291 
50 44.84145  3.6252663 251.5620 44.84145 213.1535  38.4084869   0.923804784 
       Ynew 
1  169.3296 
2  200.9038 
3  189.4652 
4  177.5159 
5  210.4360 
6  203.8361 
7  236.5821 
8  171.9624 
9  187.0553 
10       NA 
11 164.8052 
12 192.8824 
13 182.2957 
14 146.3090 
15 192.9041 
16 186.6482 
17 228.3253 
18 184.8983 
19 213.9378 
20 203.5657 
<snip> 
49 208.1318 
50 251.5620

Açıkçası, Lund testinden (Grubbs akla yayılır) başka aykırı testler de var, ancak hangisinin çok değişkenli verilere daha uygun olduğundan emin değilim.

— PaulHurleyuk
kaynak

1

Tek değişkenli kutu lekeleri tek değişkenli aykırı noktaları tespit etmek için kullanışlıdır. Ancak, çok değişkenli aykırı değerleri tamamen kaçırabilirler. Eğer bir Y ve bir grup X değişkenim varsa, regresyon fikri tamamdır. Ancak soruda söylediğim gibi, Y yoktur, dolayısıyla regresyon uygun değildir.

— Rob Hyndman

@RobHyndman - biri, Y'yi sabitleyebilir (sabit hale getirir) ve müdahale etmeden çoklu regresyon modellemeyi deneyebilir . Pratikte güzel çalışıyor. Temelde bu, tipik bir anomali tespitinin olduğu temelde denetlenmeyen bir sorunu denetimli bir soruna dönüştürür.

— arielf

@arielf İlginç. Bunun için bir referansınız var mı?

— Rob Hyndman,

@RobHyndman akademik bir makale değil, ama belki de daha iyi, kendiniz deneyebilirsiniz. vw-top-errors@ Goo.gl/l7SLlB adresindeki github sayfamı görün (orada verilen örneklerin Y'ye sahip olduğuna dikkat edin, ancak aynı tekniği kullandım, denetlenemeyen sorunlarda da Y'yi

— düzelterek

1

Yukarıdaki cevaplardan biri mahalanobis mesafelerinde değinilmiş olan .... belki daha ileri bir adım ve eşzamanlı güven aralıklarını hesaplamak aykırı değerlerin tespit edilmesine yardımcı olacaktır!

— Mojo
kaynak