Doğrusal olmayan regresyon için aykırı değerleri belirleme


11

Akarların fonksiyonel tepkisi alanında araştırma yapıyorum. Rogers tip II fonksiyonunun parametrelerini (saldırı hızı ve işleme süresi) tahmin etmek için bir gerileme yapmak istiyorum. Bir ölçüm veri setim var. Aykırı değerleri en iyi nasıl belirleyebilirim?

Regresyonum için R'de (doğrusal olmayan bir regresyon) aşağıdaki komut dosyasını kullanıyorum: (tarih seti, değerler (ilk av sayısı) ve değerler (24 saat boyunca yenen av sayısı ) data.txtile dosya adı verilen basit bir 2 sütunlu metin dosyasıdır :N0FR

library("nlstools")
dat <- read.delim("C:/data.txt")    
#Rogers type II model
a <- c(0,50)
b <- c(0,40)
plot(FR~N0,main="Rogers II normaal",xlim=a,ylim=b,xlab="N0",ylab="FR")
rogers.predII <- function(N0,a,h,T) {N0 - lambertW(a*h*N0*exp(-a*(T-h*N0)))/(a*h)}
params1 <- list(attackR3_N=0.04,Th3_N=1.46)
RogersII_N <-  nls(FR~rogers.predII(N0,attackR3_N,Th3_N,T=24),start=params1,data=dat,control=list(maxiter=    10000))
hatRIIN <- predict(RogersII_N)
lines(spline(N0,hatRIIN))
summary(RogersII_N)$parameters

Calssic Artık grafiklerini çizmek için aşağıdaki komut dosyasını kullanıyorum:

res <- nlsResiduals (RogersII_N)
plot (res, type = 0)
hist (res$resi1,main="histogram residuals")
    qqnorm (res$resi1,main="QQ residuals")
hist (res$resi2,main="histogram normalised residuals")
    qqnorm (res$resi2,main="QQ normalised residuals")
par(mfrow=c(1,1))
boxplot (res$resi1,main="boxplot residuals")
    boxplot (res$resi2,main="boxplot normalised residuals")

Sorular

  • Hangi veri noktalarının aykırı olduğunu en iyi nasıl belirleyebilirim?
  • R'de kullanabileceğim objektif olan ve hangi veri noktalarının aykırı olduğunu gösteren testler var mı?

Yanıtlar:


9

Dixon ve Grubb'lar dahil olmak üzere bazı aykırı testler outliersR'deki pakette mevcuttur. Testlerin bir listesi için paketin belgelerine bakın . Testleri açıklayan referanslar ilgili fonksiyonlar için yardım sayfalarında verilmiştir.

Aykırı değerleri verilerinizden kaldırmayı planlıyorsanız, bunun her zaman tavsiye edilmediğini unutmayın. Bununla ilgili bir tartışma (ayrıca aykırı değerlerin nasıl tespit edileceğine dair bazı öneriler) için bu soruya bakınız .


8

Ben de istatistikçi değilim. Bu nedenle veriler hakkında uzman bilgimi aykırı değerleri bulmak için kullanıyorum. Yani , bazı ölçümleri diğerlerinden farklı kılan fiziksel / biyolojik / sebepleri araştırıyorum.

Benim durumumda

  • ölçülen sinyalin bir kısmını bozan kozmik ışınlar
  • laboratuara giren biri, ışığı açar
  • sadece tüm spektrum bir şekilde farklı görünüyor
  • ilk ölçüm serisi normal çalışma saatlerinde alınmıştır ve saat 22.00 serisinden daha gürültülü bir büyütme sırasıdır.

Elbette bize benzer etkileri söyleyebilirsiniz.

3. noktamın diğerlerinden farklı olduğunu unutmayın: Ne olduğunu bilmiyorum. Bu, sorduğunuz türden bir aykırı değer olabilir. Ancak, neyin neden olduğunu (ve bunun nedeninin veri noktasını geçersiz kıldığını) bilmeden, veri kümesinde görünmemesi gerektiğini söylemek zordur. Ayrıca: aykırı değeriniz benim en ilginç örneğim olabilir ...

Bu nedenle, çoğu zaman aykırı değerlerden değil, şüpheli veri noktalarından söz ediyorum. Bu, herkese anlamları için iki kez kontrol edilmeleri gerektiğini hatırlatır.

Verileri hariç tutmanın iyi olup olmadığı (sadece sahip olma uğruna aykırı değerleri bulmak isteyen?) Büyük ölçüde eldeki görevin ne olduğuna ve o görevin "sınır koşullarının" ne olduğuna bağlıdır. Bazı örnekler:

  • yeni outlierensis Joachimii alt türlerini keşfettiniz ;-) onları hariç tutmak için bir neden yok. Diğerlerini hariç tut.

  • akarların avlanma zamanlarını tahmin etmek istersiniz. Tahminin belirli koşullarla sınırlandırılması kabul edilebilirse, bunları formüle edebilir ve diğer tüm örnekleri hariç tutabilir ve tahmin modelinizin bu veya bu durumla ilgilendiğini söyleyebilirsiniz, ancak başka durumların (burada açıklamayı açıklayın) gerçekleştiğini zaten biliyorsunuz.

  • Model teşhisi yardımıyla verilerin hariç tutulmasının bir tür kendini gerçekleştiren kehanet veya aşırı uzamsal bir önyargı yaratabileceğini unutmayın (yani, yönteminizin genel olarak uygulanabilir olduğunu iddia ediyorsanız): varsayımlar, kalan örnekler tarafından karşılanan varsayımlar daha iyidir. Ama bu sadece dışlanma yüzünden.

  • Şu anda bir sürü kötü ölçümüm olduğu bir görevim var (ölçümün kötü olduğunu düşündüğüm fiziksel nedeni biliyorum) ve bir şekilde "garip görünüyor". Ne yapmak bir (yordama) modelinin düzeni sağlanması gelen bu örnekleri hariç, fakat ayrı ayrı O tiplerinin aykırı karşı benim modelinin sağlamlığı hakkında bir şey söylemek böylece bunlarla modeli test olmasıdır ben a bir kez her oluşacak biliyorum yaparken . Bu nedenle, uygulama bir şekilde veya diğerlerinin bu aykırı değerlerle başa çıkması gerekir.

  • Aykırı değerlere bakmanın başka bir yolu da "Modelimi ne kadar etkiliyor?" Diye soruyor. (Kaldıraç). Bu açıdan, garip eğitim örnekleriyle ilgili sağlamlığı veya istikrarı ölçebilirsiniz.

  • Hangi istatistiksel prosedürü kullanırsanız kullanın, ya herhangi bir aykırı değeri tanımlamayacak ya da yanlış pozitifleri olacaktır. Diğer tanı testleri gibi bir aykırı test prosedürünü karakterize edebilirsiniz: duyarlılığı ve özgüllüğü vardır ve - sizin için daha önemlidir - pozitif ve negatif bir öngörücü değere karşılık gelirler (verilerinizdeki aykırı oran üzerinden). Başka bir deyişle, özellikle verilerinizde çok az aykırı değer varsa, aykırı değer testi ile tanımlanan bir vakanın gerçekten bir aykırı değer olması (yani verilerde olmaması gerekir) çok düşük olabilir.
    Elimizdeki veriler hakkında uzman bilgisinin genellikle aykırı değerleri tespit etmede istatistiksel testlerden çok daha iyi olduğuna inanıyorum: test, arkasında yatan varsayımlar kadar iyi. Ve tek bedene uyan her şey veri analizi için pek iyi değildir. En azından, uzmanların (bu tür ölçümler hakkında) otomatik prosedürler sıklıkla başarısız olurken, tehlikeye atılan sinyalin tam kısmını tanımlamakta sorun yaşamadıkları bir tür aykırı değerlerle uğraşırım (bir sorun, ancak sorunun nerede başladığını ve nerede bittiğini bulmalarını sağlamak çok zordur).


Burada çok iyi bilgiler var. Özellikle mermi noktaları # 4 ve 5'i seviyorum.
gung - Monica'yı eski durumuna döndürün

4

Tek değişkenli aykırı değerler için Dixon'un oran testi ve Grubbs'un normallik varsayımı testi vardır. Bir aykırı değeri test etmek için bir nüfus dağılımı varsaymanız gerekir, çünkü gözlemlenen değerin varsayılan dağılımdan gelmenin aşırı veya olağandışı olduğunu göstermeye çalışıyorsunuz. Amerikan İstatistikçisinde 1982'de burada daha önce başvurmuş olabileceğim bir makalem var, bu da Dixon'un oran testinin bazı normal olmayan dağılımlar için bile küçük numunelerde kullanılabileceğini gösteriyor. Chernick, MR (1982) "Küçük Örneklerde Dixon Oranının Sağlamlığı Üzerine Bir Not" Amerikan İstatistikçi p 140. Zaman serisindeki çok değişkenli aykırı değerler ve aykırı değerler için, parametre tahminleri için etki fonksiyonları, aykırı değerleri tespit etmek için yararlı ölçümlerdir (bilmiyorum Bu testler mümkün olmasına rağmen, onlar için oluşturulan resmi testlerinAykırı değer tespit yöntemlerinin ayrıntılı tedavisi için "İstatistiksel Verilerde Aykırı Değerler" .


3

Bkz. Http://www.waset.org/journals/waset/v36/v36-45.pdf , "Doğrusal Olmayan Regresyonda Aykırı Tespit" [ sic ].

Öz

Aykırı değerlerin tespiti, lineer ve lineer olmayan regresyon analizinde büyük yorumlayıcı problem üretme sorumlulukları nedeniyle çok önemlidir. Doğrusal regresyonda aykırı değerlerin tanımlanması üzerinde çok fazla çalışma yapılmıştır, ancak doğrusal olmayan regresyonda değil. Bu yazıda lineer olmayan regresyon için birkaç aykırı değer saptama tekniği öneriyoruz. Ana fikir, doğrusal olmayan bir modelin doğrusal yaklaşımını kullanmak ve degradeyi tasarım matrisi olarak düşünmektir. Daha sonra, tespit teknikleri formüle edilir. En Küçük Kareler, M ve MM tahmincileri gibi üç tahmin tekniği ile birleştirilen altı tespit tedbiri geliştirilmiştir. Çalışma, altı ölçüm arasında, sadece MM tahmincisi ile birleştirilmiş öğrenci ve rezidü ve Pişirme Mesafesinin,


+1 İngilizce ile ilgili belirgin sorunlara rağmen (ve matematiksel dizgide), bu makale soruya faydalı bir katkı gibi görünmektedir.
whuber

2

Bir aykırı değer, "bazı taban çizgisinden" "çok uzak" bir noktadır. İşin püf noktası her iki ifadeyi de tanımlamaktır! Doğrusal olmayan regresyon ile, bir aykırı değer en uygun eğriden "çok uzak" olup olmadığını görmek için tek değişkenli yöntemler kullanılamaz, çünkü aykırı değer eğrinin üzerinde çok büyük bir etkiye sahip olabilir.

Ron Brown ve ben, aykırı değeri eğriyi çok fazla etkilemesine izin vermeden, doğrusal olmayan regresyonla tespit eden aykırı değerleri yapmak için benzersiz bir yöntem (ROUT - Sağlam regresyon ve Outlier kaldırma diyoruz) geliştirdik. Öncelikle verileri, aykırı değerlerin çok az etkili olduğu sağlam bir regresyon yöntemiyle sığdırın. Bu taban çizgisini oluşturur. Ardından, bir noktanın o taban çizgisinden "çok uzak" ve bir aykırı değer olduğunu tanımlamak için Yanlış Keşif Oranı (FDR) fikirlerini kullanın. Son olarak, tanımlanan aykırı değerleri kaldırır ve kalan noktalara geleneksel olarak uyar.

Yöntem açık erişim dergisinde yayınlandı: Motulsky HJ ve Brown RE, Doğrusal olmayan regresyon ile veri takarken aykırı değerleri tespit etmek - sağlam doğrusal olmayan regresyon ve yanlış keşif oranına dayanan yeni bir yöntem , BMC Bioinformatics 2006, 7: 123. İşte özet:

Arka fon. Doğrusal olmayan regresyon, lineer regresyon gibi, ideal eğri etrafındaki veri dağılımının bir Gauss veya normal dağılım izlediğini varsayar. Bu varsayım, bilinen regresyon amacına yol açar: noktalar ve eğri arasındaki dikey veya Y değeri mesafelerinin karelerinin toplamını en aza indirmek. Aykırı değerler kareler toplamı hesaplamasına hükmedebilir ve yanıltıcı sonuçlara yol açabilir. Bununla birlikte, eğrileri doğrusal olmayan regresyon ile takarken aykırı değerleri rutin olarak tanımlamak için pratik bir yöntem bilmiyoruz.

Sonuçlar. Verileri doğrusal olmayan regresyon ile takarken aykırı değerleri tanımlamak için yeni bir yöntem açıklanmaktadır. Verileri ilk olarak, saçılmanın Lorentzian dağılımını izlediği varsayımına dayanarak sağlam bir doğrusal olmayan regresyon formu kullanarak sığdırırız. Yöntem ilerledikçe giderek daha sağlam hale gelen yeni bir uyarlanabilir yöntem geliştirdik. Aykırı değerleri tanımlamak için yanlış keşif oranı yaklaşımını çoklu karşılaştırmaları ele almaya uyarladık. Daha sonra aykırı değerleri çıkarırız ve normal en küçük kareler regresyonunu kullanarak verileri analiz ederiz. Yöntem, güçlü regresyon ve aykırı değer kaldırmayı birleştirdiğinden, buna ROUT yöntemi diyoruz.

Tüm saçılmaların Gauss olduğu simüle edilmiş verileri analiz ederken, yöntemimiz deneylerin sadece% 1-3'ünde bir veya daha fazla aykırı değer tespit eder (yanlış). Bir veya birkaç aykırı değerle kontamine olan verileri analiz ederken, ROUT yöntemi, ortalama bir Yanlış Bulma Oranı% 1'den az olmak üzere, aykırı tanımlamada iyi performans gösterir.

Sonuç. Yeni bir doğrusal olmayan regresyon yöntemini yeni bir aykırı tanımlama yöntemi ile birleştiren yöntemimiz, doğrusal olmayan eğri uyumlarından aykırı değerleri makul güç ve az sayıda yanlış pozitif ile tanımlar.

R'de (bildiğim kadarıyla) uygulanmadı, ancak GraphPad Prism'de uyguladık . ve Prizma yardımında basit bir açıklama sağlayın .


0

Sorunuz çok genel. "Aykırı değerlerin" hariç tutulması için tek bir en iyi yöntem yoktur.

"Aykırı değerlerin" bazı özelliklerini bilmek zorundaydınız. veya hangi yöntemin en iyi olduğunu bilmiyorsunuz. Hangi yöntemi kullanmak istediğinize karar verdikten sonra, yöntemin parametrelerini dikkatli bir şekilde kalibre etmeniz gerekir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.