Verilerin nasıl kaydedildiğini anlamanıza yardımcı olur.
Bir hikaye paylaşmama izin ver . Bir zamanlar, çok uzun zaman önce, birçok veri kümesi yalnızca solma baskısında saklandı. Bu karanlık günlerde, üretim tesislerinden birinde yaklaşık 10 ^ 5 çevresel izleme verisi kaydını bilgisayarlaştırmak için bir organizasyonla (büyük soyağacı ve büyüklükte; çoğunuz muhtemelen stoklarına sahip olacaksınız) sözleşme yaptım. Bunu yapmak için kişisel olarak bir laboratuvar raporları rafı oluşturdum (verilerin nerede olduğunu göstermek için), veri giriş formlarını oluşturdum ve okuma yazma için geçici bir ajansla sözleşme yaptımçalışanları formlara veri yazmak için. (Evet, okuyabilen insanlar için fazladan ödeme yapmanız gerekiyordu.) Verilerin değeri ve hassasiyeti nedeniyle, bu süreci bir seferde iki işçiyle paralel olarak yürüttüm (genellikle günden güne değişen). Birkaç hafta sürdü. İki girdi kümesini karşılaştırmak için yazılım yazdım, ortaya çıkan tüm hataları sistematik olarak tanımlayıp düzeltdim.
Çocuk hatalar vardı! Ne yanlış gidebilir? Hataları tanımlamanın ve ölçmenin iyi bir yolu, temel kayıt düzeyindedir; bu durumda, belirli bir izleme noktasında belirli bir izleme noktasında elde edilen belirli bir numune için tek bir analitik sonucun (bazı kimyasalların konsantrasyonu) tanımlanmasıydı. verilen tarih. İki veri setini karşılaştırırken buldum:
İhmal hataları : Bir veri kümesi bir kaydı içerecek, diğeri içermeyecektir. Bu, genellikle (a) bir ya da iki satır sayfanın altında göz ardı edildiğinde ya da (b) bir sayfanın tamamında atlandığından ortaya çıkar.
Gerçekten veri girişi hataları olan açık ihmal hataları. Bir kayıt, bir izleme noktası adı, tarih ve "analit" (genellikle kimyasal bir ad) ile tanımlanır. Bunlardan herhangi birinin yazım hatası olması durumunda, ilgili olduğu diğer kayıtlarla eşleştirilmez. Aslında, doğru kayıt kaybolur ve yanlış bir kayıt belirir.
Sahte çoğaltma . Aynı sonuçlar, çoklu kaynaklarda görünebilir, birçok kez kopyalanabilir ve olmadıklarında tekrarlanan gerçek ölçümler gibi görünebilir. Kopyalar, algılanması kolaydır, ancak hatalı olup olmadıklarına karar vermek, kopyaların veri kümesinde görünüp görünmeyeceğini bilmeye bağlıdır. Bazen bilemezsin.
Frank veri girişi hataları . "İyi" olanlar onlar değiştirmek çünkü yakalamak kolaydır türü verinin: basamağı için harfini kullanarak "O", "0", örneğin bir sigara sayıya bir sayı dönüşür. Diğer iyi hatalar değeri istatistiksel testlerle kolayca tespit edilebilecek şekilde değiştirir. (Bir durumda, "1,000,010 mg / Kg" deki ana rakam kesildi ve 10 değerinde kaldı. Böcek ilacı konsantrasyonundan bahsettiğinizde bu çok büyük bir değişiklik!) Kötü hataların yakalanması zor çünkü değişiyorlar. "50" için "80" yazmak gibi verilerin geri kalanıyla uyuşan bir değer. (Bu tür bir hata OCR yazılımı ile her zaman olur.)
Transpozisyonlar . Doğru değerler girilebilir ancak yanlış kayıt tuşları ile ilişkilendirilebilir. Bu çok sinsidir, çünkü veri setinin küresel istatistiksel özellikleri değişmeden kalabilir, ancak gruplar arasında sahte farklılıklar oluşabilir. Muhtemelen sadece çift girişli bir mekanizma bile bu hataları tespit edebilmektedir.
Bu hataların farkında olduktan ve bunların nasıl gerçekleştiğinin bir teorisine sahip olduğunuzda, bir kez bilgi sahibi olduktan sonra, veri kümelerinizi bu tür hataların olası varlığına göre tutmak için komut dosyaları yazabilir ve daha fazla dikkat çekmek için işaretleyebilirsiniz. Bunları her zaman çözemezsiniz, ancak en azından sonraki analizlerinde verilere eşlik etmek için bir "yorum" veya "kalite bayrağı" alanı ekleyebilirsiniz.
O zamandan beri veri kalitesi konularına dikkat ettim ve büyük istatistiksel veri kümelerinin kapsamlı kontrollerini yapmak için daha birçok fırsatım oldu. Hiçbiri mükemmel değil; hepsi kalite kontrollerinden yararlanırlar. Bunu yapmak için yıllar içinde geliştirdiğim ilkelerden bazıları şunlardır:
Mümkün olduğunda, veri girişinde ve veri transkripsiyon prosedürlerinde fazlalık yaratın : sağlama toplamları, toplamlar, tekrarlanan girişler: otomatik iç tutarlılık kontrollerini destekleyen herhangi bir şey.
Mümkünse, verilerin nasıl görünmesi gerektiğini açıklayan başka bir veritabanı oluşturun ve kullanın : yani bilgisayar tarafından okunabilen meta veriler. Örneğin, bir ilaç deneyinde, her hastanın üç kez görüleceğini önceden biliyor olabilirsiniz. Bu, tüm doğru kayıtları ve tanımlayıcılarını yalnızca doldurulmayı bekleyen değerlerle içeren bir veritabanı oluşturmanıza olanak tanır. Size verilen verileri doldurun ve kopyaları, ihmalleri ve beklenmedik verileri kontrol edin.
Veri kümesini analiz için nasıl biçimlendirmeyi planladığınızdan bağımsız olarak verilerinizi her zaman normalleştirin (özellikle onları en az dördüncü normal forma alın ). Bu sizi modelleyeceğiniz her kavramsal açıdan ayrı varlığın tablolarını oluşturmaya zorlar. (Çevresel durumda bu, izleme yerleri tablolarını, numuneleri, kimyasalları (özellikleri, tipik aralıkları vb.), Bu numunelerin testlerini (bir test genellikle bir kimyasallar grubunu kapsar) ve bu testlerin bireysel sonuçlarını içerir. Bunu yaparken, birçok etkili veri kalitesi ve tutarlılığı kontrolü yaratır ve potansiyel olarak eksik veya yinelenen veya tutarsız değerleri tespit edersiniz.
Bu çaba (iyi veri işleme becerileri gerektirir, ancak kolaydır) şaşırtıcı derecede etkilidir. Büyük veya karmaşık veri kümelerini analiz etmeyi arzu ediyorsanız ve ilişkisel veritabanları ve teorileri hakkında iyi bir çalışma bilgisine sahip değilseniz, en kısa sürede öğrenilecek şeyler listenize ekleyin. Kariyeri boyunca temettü ödeyecek.
Her zaman mümkün olduğu kadar çok "aptal" kontrol yapın . Bunlar, tarihlerin beklenen sürelere düştüğü, hasta sayısının (veya kimyasalların veya her neyse) her zaman doğru bir şekilde toplandığı, değerlerin her zaman makul olduğu (örneğin bir pH'ın 0-14 arasında olması ve belki de kan pH değerleri), vb. için çok daha dar bir aralık. Alan uzmanlığının en fazla yardım edebileceği yer burasıdır: istatistikçi korkusuzca uzmanların aptalca sorularını sorabilir ve verileri kontrol etmek için cevaplardan yararlanabilir.
Elbette çok daha fazla şey söylenebilir - konu bir kitaba değer - ancak bu fikirleri teşvik etmek için yeterli olmalıdır.