"Veri temizlemenin" rolü, "yasalarımızın (modelimizin) işe yaramadığını" belirlemektir. Aykırı değerlerin veya anormal veri noktalarının ayarlanması, eğlendirmekte olduğumuz mevcut modeldeki parametrelerin "sağlam tahminlerini" almamıza olanak tanır. Bu "aykırı değerler" tedavi edilmezse, tahminlerde "varsayılmış modelimize göre davranmayan" bu veri noktalarını açıklamaya yönlendirildiği için model parametrelerinde istenmeyen bir bozulmaya izin verir. Başka bir deyişle, “kötü adamlar” üzerine odaklanarak açıklanan Kareler Toplamı açısından çok fazla geri ödeme var. Temizleme gerektiren ampirik olarak tanımlanmış noktalar, mevcut modelde bulunmayan faktörleri potansiyel olarak geliştirmek / önermek için dikkatle incelenmelidir.
Yıllık vaka ölüm oranı kullanılarak bir eyaletteki müdahalenin diğerine müdahalesinin etkisi nasıl değerlendirilir?
Bilim yapmak tekrarlanan örüntüler aramaktır.
Anormallikleri tespit etmek, tekrarlanan kalıpları takip etmeyen değerleri tanımlamaktır. Bir noktanın bu modeli ihlal ettiğini başka nasıl bilebilirsiniz? Aslında, aykırı değerlerin büyütülmesi, anlaşılması, bulunması ve incelenmesi süreci yinelemeli olmalıdır. Bu yeni bir düşünce değil.
400 yıl önce Novum Organum'da yazan Sir Frances Bacon, “Doğa, Spor ve Canavarların Hataları, sıradan şeyler hakkındaki anlayışı düzeltir ve genel formları ortaya çıkarır. Doğanın yollarını bilen herkes sapmalarını daha kolay fark edecektir; ve diğer yandan, sapkınlıkları bilenler kendi yollarını daha doğru bir şekilde tarif edecektir. ”
Mevcut kuralların ne zaman başarısız olduğunu gözlemleyerek kurallarımızı değiştiririz.
Gerçekten tanımlanan aykırı değerlerin hepsi bakliyat ise ve benzer etkilere (boyut) sahipse, aşağıdakileri öneririz (başka bir posterden alıntılanmıştır)
Bir regresyon ortamında bunu yapmanın "hızlı ve kirli" bir yolu, salgın yıl / dönemleri için bir regresör değişkeni olarak bir gösterge eklemektir.Bu size salgınların etkisinin ortalama bir tahminini verecektir (ve dolaylı olarak etkinin Ancak, bu yaklaşım yalnızca etkiyi tanımlamak için işe yarar, çünkü öngörmede regresyon değişkeniniz bilinmemektedir (gelecekte hangi dönemlerin salgın olacaklarını bilmiyorsunuz). "
Kurs, bireysel anomalilerin (nabız yılları) benzer etkilere sahip olmasını gerektiriyorsa bu. Farklı olmaları durumunda yukarıda açıklanan bir portmanteau değişkeni yanlış olur.