Bunu ele almadan önce, "aykırı değerlerin giderilmesi" nin istatistiksel yanlış uygulamasının, uygulanan istatistiksel pedagojinin çoğunda yanlış bir şekilde yayınlandığını kabul etmek önemlidir. Geleneksel olarak aykırı değerler, yüksek kaldıraç, yüksek etkili gözlemler olarak tanımlanır. Verilerin analizinde bu tür gözlemler tanımlanabilir ve tanımlanmalıdır, ancak bu koşullar tek başına bu gözlemlerin kaldırılmasını gerektirmez. "Gerçek bir aykırı değer", deneysel tasarımın kopyalarıyla tutarsız olan yüksek kaldıraç / yüksek etki gözlemidir. Bir gözlemi bu şekilde değerlendirmek, o nüfus ve "veri oluşturma mekanizması" nın arkasındaki bilim hakkında uzmanlık bilgisi gerektirir. En önemli yönü, potansiyel aykırı apriori tanımlayabilmenizdir .
Şeylerin önyükleme yönüne gelince, önyükleme örnekleme popülasyonundan bağımsız, tekrarlanan çekimleri simüle etmek içindir. Analiz planınızda hariç tutma ölçütlerini önceden belirtirseniz, yine de referans önyükleme örnekleme dağılımında hariç tutulan değerleri bırakmanız gerekir . Bunun nedeni, verilerinizi örnekledikten sonra hariç tutma uygulamalarından kaynaklanan güç kaybını hesaba katacağınızdır. Ancak, önceden belirlenmiş bir hariç tutma ölçütü yoksa ve aykırı değerler, açıkça karşı karşıya olduğum için, post hoc yargılama kullanılarak kaldırılırsa , bu değerlerin kaldırılması, aykırı değerlerin çıkarılmasından kaynaklanan çıkarımlarda aynı hataları yayar.
100 kişinin sınıflandırılmamış basit rastgele bir örneğinde zenginlik ve mutluluk üzerine bir çalışma düşünün. Eğer "nüfusun% 1'i dünya servetinin% 90'ına sahiptir" ifadesini alırsak, o zaman ortalama olarak çok etkili bir değer gözlemlerdik. Ayrıca, temel bir yaşam kalitesi sağlamanın ötesinde, daha büyük gelire (sabit olmayan doğrusal eğilim) atfedilebilecek fazla mutluluk olmadığını da varsayalım. Yani bu birey de yüksek kaldıraçtır.
Katıştırılmamış verilere uyan en küçük kareler regresyon katsayısı, bu verilerdeki popülasyon ortalamasının birinci derece eğilimini tahmin etmektedir. Mutluluğu ortalama gelir düzeyine yakın olanlarla tutarlı olan örneklemdeki 1 bireyimiz tarafından yoğun bir şekilde zayıflatılır. Bu bireyi çıkarırsak, en küçük kareler regresyon eğimi çok daha büyüktür, ancak regresörün varyansı azalır, bu nedenle ilişki hakkındaki çıkarım yaklaşık olarak aynıdır. Bunu yapmanın zorluğu, bireylerin hariç tutulacağı koşulları önceden belirtmememdi. Başka bir araştırmacı bu çalışma tasarımını çoğaltırsa, ortalama bir yüksek gelirli, orta derecede mutlu bir birey örnekleyecek ve "kırpılmış" sonuçlarımla tutarsız sonuçlar elde edeceklerdi.
Eğer ılımlı gelir mutluluğu derneğiyle ilgilenen apriori olsaydık, o zaman, örneğin "yıllık 100.000 $ 'dan az hane halkı geliri elde eden bireyleri karşılaştırırız". Bu yüzden aykırı değerlerin kaldırılması tarif edemeyeceğimiz bir ilişkiyi tahmin etmemize neden olur, dolayısıyla p değerleri anlamsızdır.
Öte yandan, yanlış kalibre edilmiş tıbbi ekipman ve yüz ifadeleriyle kendini gösteren anket yalanları kaldırılabilir. Dışlama ölçütleri, gerçek analiz yapılmadan önce ne kadar doğru bir şekilde tanımlanabilirse, böyle bir analizin üreteceği sonuçlar o kadar geçerli ve tutarlı olur.