Veri temizliği istatistiksel analiz sonuçlarını kötüleştirebilir mi?


17

Bir virüs dolaşımı (2002'de ABD'de West Nile Virus gibi) veya insanların direncinin azalması veya yiyecek veya su kontaminasyonu veya sayısındaki artış nedeniyle salgınlar sırasında (sayılarda ani artış) meydana gelen vaka ve ölüm sayısında bir artış meydana gelir. sivrisinekler. Bu salgınlar her 1 ila 5 yılda bir ortaya çıkabilecek aykırı değerler olarak ortaya çıkacaktır. Bu aykırı değerleri ortadan kaldırarak, tahmin ve hastalık anlayışının önemli bir bölümünü oluşturan salgın kanıtlarını kaldırıyoruz.

Salgınların neden olduğu aykırı değerlerle uğraşırken veri temizliği gerekli mi?

Sonuçları iyileştirecek mi, yoksa istatistiksel analiz sonuçlarını mı kötüleştirecek?

Yanıtlar:


12

Aslında araştırmanızın amacına bağlıdır. Bence birkaç tane olabilir:

  1. Olgulara ve ölümlere neden olan ve salgın dönemlerden ve salgınlara neden olan faktörlerden etkilenmeyen tipik faktörlerin ne olduğunu anlamak istiyorsunuz (bu nedenle tipik olarak büyük olasılıkları zorlamamakla ilgileniyorsunuz) - bu durumda açıkça salgını kaldırmanız gerekir verilerden aykırı değerlerdir , çünkü aykırı değerleri araştırmak istediğiniz sonuca göre
  2. Salgın döneminin meydana gelme olasılığını (ve ayrıca ne kadar süre beklediğini bilmek istediğinizden) modellerinize salgın değişiklikleri dahil etmek isteyebilirsiniz (örneğin, rejim değiştirme modelleri, örneğin topluluktan iyi bağlantılar ve model önerileri hoş geldiniz). sürecektir), istikrarı test etmek ve tahmin etmek için - bu durumda salgın dönemlerini hariç tutmazsınız, ancak çekiç-ekonometrik alet veya benzeri bir şey yerine daha karmaşık modeller arayın.OLS
  3. Öncelikli hedefiniz salgın dönemlerini tespit etmek ve bunları gerçek zamanlı olarak izlemek - ekonometride özel bir alan, meslektaşlarımın bir kısmı Vilnius Üniversitesi'nde çalışıyor (kesinlikle, başa çıkmak için çok fazla salgın gözlem yapmak istiyorsunuz) )

Dolayısıyla, birincil hedefiniz 2 gibi bir şeyse, verileri temizlemek gelecekteki tahminler hakkında yanlış sonuçlara neden olur, yani yanlış tahmin performansı. İkinci vakanın daha iyi tahminler sağlaması gerekmediği de doğrudur, ancak en azından salgın dönemlerinin olasılıkları ve uzunlukları hakkında sonuç çıkarabilirsiniz. Bu aktüeryal matematikçiler için hayati önem taşıyor, siz de o kişi siz misiniz?


Harika ve basit bir cevap. Genç yaşta kayda değer bir bilginiz var.
Dr 22ho

15

Şahsen bu "veri temizliği" demezdim. Veri temizlemeyi veri düzenleme anlamında daha fazla düşünüyorum - veri kümesindeki tutarsızlıkları temizleme (örneğin, bir kayıt 1000 yaşını bildirmiştir veya 4 yaşında bir kişi tek bir ebeveyntir, vb.).

Verilerinizde gerçek bir etkinin varlığı onu "dağınık" yapmaz (aksine, gerçek efektlerin varlığı onu zenginleştirecektir) - ancak matematiksel görevinizi daha da dahil edebilir. Tahmin almanın tek uygun yolu ise verilerin bu şekilde "temizlenmesini" öneririm. Bilgiyi atmayan uygulanabilir bir yol varsa, bunu kullanın.

Bu etkinin periyodik olarak ortaya çıktığını söylediğiniz (bir çeşit "iş döngüsü" gibi) bir çeşit döngüsel analizden faydalanabileceğiniz anlaşılıyor.

Benim bakış açımdan, bir şey tahmin etmeye çalışıyorsanız, o kaynaktan gerçek bir etki kaldırmak yalnızca tahminlerinizi daha da kötüleştirebilir. Bunun nedeni, tahmin etmek istediğiniz bilgileri etkin bir şekilde "atmış olmanızdır"!

Diğer bir nokta, bir dizi ölümün salgından ve ne kadarının olağan dalgalanmalardan kaynaklandığını belirlemek zor olabilir.

İstatistiksel terminolojide, salgın böyle görünüyor, sizin bakış açınızdan, aslında analiz etmek istediğiniz şey için bir "sıkıntı" dır. Bu yüzden özellikle ilgilenmiyorsunuz, ancak analizinizde bir şekilde hesaba katmanız gerekiyor. Bir regresyon ortamında bunu yapmanın "hızlı ve kirli" bir yolu, bir regresör değişkeni olarak salgın yıl / dönem için bir gösterge eklemektir. Bu size salgınların etkisi hakkında ortalama bir tahmin verecektir (ve dolaylı olarak etkinin her salgın için aynı olduğunu varsayar). Bununla birlikte, bu yaklaşım sadece etkiyi tanımlamak için çalışır, çünkü tahminlerde regresyon değişkeniniz bilinmemektedir (gelecekte hangi dönemlerin salgın olacaklarını bilmiyorsunuz).

Salgını hesaba katmanın bir başka yolu, iki bileşenli bir karışım modeli kullanmaktır: salgın kısım için bir model ve "sıradan" bölüm için bir model. Model daha sonra iki adımda ilerler: 1) bir dönemi salgın veya normal olarak sınıflandırır, daha sonra 2) sınıflandırıldığı modeli uygular.


(+1) güzel öneriler, ancak daha fazla kirli olmayan numaralar olabilir.
Dmitrij Celov

+ 1; Gelecek kuşak için şu yorumu yapmak istiyorum: "Gerçek bir etkiyi kaldırmak ... sadece tahminlerinizi daha da kötüleştirebilir" diyorsunuz. Bağlamda, açıkça haklısınız, ancak genel durumda bu mutlaka doğru değildir. (Ben öngörülü modellemede büyük bir öneme sahip olan 'önyargı-varyans tradeoff'u' nu düşünüyorum.) Yine, sanırım tam buradasınız ve önyargı-varyans dengesi hakkında bilginiz var; Gelecekte bu cevaba rastlayan ve bu ifadeyi yanlış yorumlayabilen herkes için bahsetmek istiyorum.
gung - Monica'yı eski durumuna getirin

5

Sorunuza genel bir cevap vermek için eski genel müdürlerimden birini parapharse edeyim: araştırma fırsatları, uydurduğunuz modelin aykırı değerlerinde bulunur.

Durum, Robert Millikan'ımın bir elektronun yükünü belirlemede yaptığı deneye benzer. Deneyi için Nobel ödülünü kazandıktan on yıllar sonra notları incelendi ve aradığı sonuçlara katılmadıkları için çok sayıda veri noktası attığı bulundu. Bu kötü bilim mi?

Birkaç aykırı değer bulursanız, belki de bunlar "istatistiksel aberasyonlardan" kaynaklanmaktadır. Ancak, birkaç aykırı değerden fazla bulursanız verilerinizi daha yakından incelemeniz gerekir. Kısaltmalar için bir neden ilişkilendiremiyorsanız, işlemi anlamıyorsunuz ve istatistiksel bir model sorununuzu çözmeyecektir. Bir modelin amacı bir süreci özetlemektir; model, deneycinin anlamadığı bir süreci sihirli bir şekilde özetlemez.


Bu insan eğilimidir. Robert Millikan bir istisna değildi. Pek çok yeni şeyin aydınlatılmasından ve istatistiksel bir modelin arkasındaki felsefenin vurgulanmasından çok mutluyum.
Dr 22ho

5

"Veri temizlemenin" rolü, "yasalarımızın (modelimizin) işe yaramadığını" belirlemektir. Aykırı değerlerin veya anormal veri noktalarının ayarlanması, eğlendirmekte olduğumuz mevcut modeldeki parametrelerin "sağlam tahminlerini" almamıza olanak tanır. Bu "aykırı değerler" tedavi edilmezse, tahminlerde "varsayılmış modelimize göre davranmayan" bu veri noktalarını açıklamaya yönlendirildiği için model parametrelerinde istenmeyen bir bozulmaya izin verir. Başka bir deyişle, “kötü adamlar” üzerine odaklanarak açıklanan Kareler Toplamı açısından çok fazla geri ödeme var. Temizleme gerektiren ampirik olarak tanımlanmış noktalar, mevcut modelde bulunmayan faktörleri potansiyel olarak geliştirmek / önermek için dikkatle incelenmelidir.

Yıllık vaka ölüm oranı kullanılarak bir eyaletteki müdahalenin diğerine müdahalesinin etkisi nasıl değerlendirilir?

Bilim yapmak tekrarlanan örüntüler aramaktır.

Anormallikleri tespit etmek, tekrarlanan kalıpları takip etmeyen değerleri tanımlamaktır. Bir noktanın bu modeli ihlal ettiğini başka nasıl bilebilirsiniz? Aslında, aykırı değerlerin büyütülmesi, anlaşılması, bulunması ve incelenmesi süreci yinelemeli olmalıdır. Bu yeni bir düşünce değil.

400 yıl önce Novum Organum'da yazan Sir Frances Bacon, “Doğa, Spor ve Canavarların Hataları, sıradan şeyler hakkındaki anlayışı düzeltir ve genel formları ortaya çıkarır. Doğanın yollarını bilen herkes sapmalarını daha kolay fark edecektir; ve diğer yandan, sapkınlıkları bilenler kendi yollarını daha doğru bir şekilde tarif edecektir. ”

Mevcut kuralların ne zaman başarısız olduğunu gözlemleyerek kurallarımızı değiştiririz.

Gerçekten tanımlanan aykırı değerlerin hepsi bakliyat ise ve benzer etkilere (boyut) sahipse, aşağıdakileri öneririz (başka bir posterden alıntılanmıştır)

Bir regresyon ortamında bunu yapmanın "hızlı ve kirli" bir yolu, salgın yıl / dönemleri için bir regresör değişkeni olarak bir gösterge eklemektir.Bu size salgınların etkisinin ortalama bir tahminini verecektir (ve dolaylı olarak etkinin Ancak, bu yaklaşım yalnızca etkiyi tanımlamak için işe yarar, çünkü öngörmede regresyon değişkeniniz bilinmemektedir (gelecekte hangi dönemlerin salgın olacaklarını bilmiyorsunuz). "

Kurs, bireysel anomalilerin (nabız yılları) benzer etkilere sahip olmasını gerektiriyorsa bu. Farklı olmaları durumunda yukarıda açıklanan bir portmanteau değişkeni yanlış olur.


@IrishStat: Harika bir açıklama ve akılda kalıcı bir teklif. Kıdem ve uzmanlığınızı korudunuz. Daha önceki sorularıma atıfta bulunarak "keşfedilmeyi bekleyen bilgiler" ifadenizi
Dr

1
@DrWHO: Çok kötü görünen bir arsa düzelten 2014 SEVİYE KAYDIRMASI'nın tanımlanması, bir politika değişikliği tarihi ile tam uygulama / gerçekleşme tarihi arasındaki belirgin gecikmeyi ortaya çıkardığı için "keşfedilmeyi bekleyen bilgi" nin bir örneğidir. 2004'te (17'nin 11. yılında) kalıcı bir düzey (adım) değişikliğinin tam olarak gerçekleştiğini, fiili tarihin birkaç yıl önce olduğu fiili tarihi yansıttığını ifade etmiştir.
IrishStat

@IrishStat: Açıklık için teşekkürler. Politika yapıcıları, doktorları ve halkı belirli bir tedavinin hastalık sonucunda ciddi değişiklikler olabileceğine ikna etmek çok zordur. Onlarca yıl alır. 2004'te görülen bu Seviye kayması, yeni bir şey kabul etme gecikmesini yansıtmaktadır. Seviye değişiminden çıkmak veya Durum 1'in Vaka Fatality Oranlarının hesaplanması için bir istatistik olarak değerlendirmek daha iyidir mi? Stat.stackexchange.com/questions/8358/…
DrWho 22:11

1
yukarıdaki yorum 2004'te LEVEL SHIFT olmalıydı. Karışıklık için üzgünüm.
IrishStat

1
@DrWHO: "Seviye kaymasından ayrılmak ya da soruyla uğraşırken Durum 1'in Vaka Fatality Oranları hesaplamaları için bir aykırı olarak değerlendirmek daha iyi mi?" Eğer tedavi etmezseniz, STATE1'in 2004'te bir Seviye Kaydırma Değişimi olduğunu söyleyebiliriz, ancak STATE2 farklı değildir, ancak bu ifadeye bir olasılık yerleştirilemez. Seviye Kayması için STATE1 işlendikten sonra, 2004'teki bir durum değişikliği için veriler normalleştirilmiştir. Normalize edilmiş veriler (temizlenmiş veriler), genelleme kaybı olmadan STATE2'nin normalleştirilmiş verileri ile karşılaştırılabilir.
IrishStat

5

Retrospektif verilerde salgın bulmak için en yaygın kullanılan yöntemlerden biri aslında aykırı değerlere bakmaktır - örneğin birçok grip araştırmacısı, modellerin değil, öncelikle modellerin kendilerine ait olan modellerin kalıntılarına odaklanır. modelin tahminleri başarısız oluyor - modelin başarısız olabileceği yollardan biri de salgının ortaya çıkması.

Ancak sonuçlarınızda aykırı değerlerin düşürülmesi - muhtemelen şimdiye kadarki en büyük fikir değil - ve çoğu insanın "veri temizleme" olarak adlandırdığı şey arasında ayrım yapmanız zorunludur. Burada, aykırı değerleri istatistiksel bir sorunu temsil ettikleri için değil, veri kalitesi sorunlarını ortaya çıkardıkları için arıyorsunuz.

Örneğin, sahip olduğum bir veri kümesinde, hastalığın başlangıcı için bir değişken vardır. Bir konu için bu tarih Kasım 1929'da. Bunun doğru olduğunu mu düşünüyorum? Hayır. Bu, düzeltilmesi gereken bir veri kalitesi sorununu gösterir - bu durumda konuyla ilgili diğer bilgilere dayanarak tarihin düzeltilmesi. Bu tür veri temizleme, istatistiksel sonuçlarınızın kalitesini etkin bir şekilde artıracaktır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.