Özellikle 1978'den 1980'e kadar Oak Ridge'de enerji verisi doğrulaması üzerinde çalışırken, aykırı değerler üzerine çok fazla araştırma yaptım. Normal veriler için tek değişkenli aykırı değerler için resmi testler var (örneğin Grubbs testi ve Dixon oranı testi). Çok değişkenli aykırı değerler ve zaman serileri için testler vardır. Barnett ve Lewis'in "İstatistiki Verilerdeki Aykırı Değerler" adlı kitabı aykırı değerlerin incisidir ve hemen her şeyi kapsamaktadır.
Oak Ridge'de veri doğrulama üzerinde çalışırken büyük çok değişkenli veri setlerimiz vardı. Tek değişkenli aykırı değerler için aşırılıklar için bir yön vardır (ortalamanın çok üzerinde ve ortalamanın çok altında). Ancak çok değişkenli aykırı değerler için aykırı değerlere bakmak için birçok yön vardır. Felsefemiz, verilerin amaçlanan kullanımının ne olduğunu düşünmekti. İki değişkenli korelasyon veya regresyon katsayısı gibi belirli parametreleri tahmin etmeye çalışıyorsanız, ilgilenilen parametre üzerinde en büyük etkiyi sağlayan yöne bakmak istersiniz. O zamanlar Mallows'un etki fonksiyonları hakkındaki yayınlanmamış makalesini okumuştum. Aykırı değerleri tespit etmek için etki fonksiyonlarının kullanımı Gnanadesikan'ın çok değişkenli analiz kitabında ele alınmıştır. Tabii ki Barnett ve Lewis'te de bulabilirsiniz.
Bir parametrenin etki fonksiyonu, gözlemlerin çok değişkenli boşluğundaki noktalarda tanımlanır ve temelde veri noktası dahil edildiğinde parametre tahmini arasındaki farkı, kaldığı zamana kıyasla ölçer. Her bir numune noktası ile bu tür tahminler yapabilirsiniz, ancak genellikle etki ve daha hızlı hesaplama sağlayan etki fonksiyonu için güzel bir fonksiyonel form elde edebilirsiniz.
Örneğin 1982 Amerikan Matematiksel ve Yönetim Bilimleri Dergisi'nde yer alan makalemde "Etki Fonksiyonu ve Veri Validasyonuna Uygulanması" İki değişkenli korelasyon için etki fonksiyonu ve sürekli etki kontürlerinin hiperbol olduğu analitik formülü gösteriyorum. Böylece konturlar düzlemde etki fonksiyonunun en hızlı arttığı yönü gösterir.
Makalemde, enerji üretimi ve tüketimi konusunda FPC Form 4 verileri ile iki değişkenli korelasyon için etki fonksiyonunu nasıl uyguladığımızı göstereceğim. İkisi arasında açık bir yüksek pozitif korelasyon vardır ve korelasyonun tahmininde oldukça etkili olan birkaç aykırı değer bulduk. Daha fazla araştırma, noktalardan en az birinin hatalı olduğunu ve bunu düzeltebildiğimizi gösterdi.
Ancak aykırı değerleri tartışırken her zaman bahsettiğim önemli bir nokta, otomatik reddetmenin yanlış olduğudur. Aykırı değer her zaman bir hata değildir ve bazen veriler hakkında önemli bilgiler sağlar. Geçerli veriler sadece gerçeklik teorimize uymadığı için kaldırılmamalıdır. Bunu yapmak zor olsun ya da olmasın, aykırı değerlerin meydana gelmesinin nedeni her zaman araştırılmalıdır.
Bu sitede çok değişkenli aykırılıkların ilk kez tartışılmadığından bahsetmeliyim. Aykırı değerlerin araştırılması, muhtemelen çok değişkenli aykırı değerlerin tartışıldığı birkaç soruya yol açacaktır. Makaleme ve bu kitaplarıma daha önce atıfta bulunduğumu ve onlara bağlantılar verdiğimi biliyorum.
Ayrıca aykırı reddi tartışıldığında, bu sitedeki çoğumuz, özellikle sadece istatistiksel bir teste dayanılarak yapıldıysa buna karşı öneride bulunduk. Peter Huber çoğu kez reddedilmeye alternatif olarak güçlü bir tahminden bahseder. Fikir, güçlü prosedürlerin, ağırlıkları, reddetme ve sağlam olmayan bir tahminci kullanma aşaması olmadan tahmin üzerindeki etkilerini azaltacağı yönündedir.
Etki fonksiyonu aslında Frank Hampel tarafından 1970'lerin başında doktora tezinde geliştirildi (sanırım 1974). Onun fikri aslında aykırı değerlere karşı sağlam olmayan tahmin edicileri tanımlamak ve güçlü tahmin ediciler geliştirmeye yardımcı olmak için etki fonksiyonlarını kullanmaktı.
Burada , etki fonksiyonlarını kullanarak zaman serilerinde aykırı değerlerin algılanması üzerine yaptığım bazı çalışmalardan bahsettiğim bu konuyla ilgili daha önceki bir tartışmaya bir bağlantı var.