Tutarlılık kontrolü nedir?


11

"Günlük işinizde tutarlılık kontrolü yaptınız mı?" Bir Biyostatist pozisyonu için telefon görüşmesi sırasında. Ne cevap vereceğimi bilmiyorum. Herhangi bir bilgi takdir.

Yanıtlar:


17

Açık veri işleme hatalarına odaklanan chl listesine, aşağıdaki soruları ve sorunları (belirli bir sırayla verilmemiş ve kesinlikle eksik) ele almak için daha ince hatalar için kontroller ekleyeceğim:

  1. Veritabanı bütünlüğü varsayıldığında veriler makul midir? Kabaca beklentilere veya geleneksel modellere uygun mu yoksa benzer verilere aşina olan birini şaşırtırlar mı?

  2. Veriler dahili olarak tutarlı mı? Örneğin, bir alanın diğer iki alanın toplamı olması gerekiyorsa, öyle mi?

  3. Veriler ne kadar eksiksiz? Veri toplama planlama aşamasında belirtilenler bunlar mı? Planlanmayan fazladan veri var mı? Eğer öyleyse, neden oradalar?

  4. Çoğu analiz, verileri örtük bir şekilde örtük veya açık bir şekilde modellenir ve genel açıklamadan farklılaşma olasılığını içerir. Bu tür her bir model, aykırı değerleri tanımlamak için kendine özgü bir yol önerir - genel açıklamadan belirgin şekilde sapan veriler. Arama ve analizin her aşamasında aykırı değerleri belirlemeye ve anlamaya çalışıldı mı?

  5. Birçok durumda analistin kalite kontrolü ve içgörü için analize ek veriler eklemesi mümkündür. Örneğin, iş dünyasının yanı sıra doğa ve sosyal bilimlerdeki birçok veri seti (en azından dolaylı olarak) konum bilgisini içerir: Sayım bölgelerinin tanımlayıcıları; ülke, eyalet, ilçe isimleri; müşteri posta kodları; ve bunun gibi. Muhtemelen - belki de özellikle - mekansal korelasyon EDA'nın veya modellemenin bir öğesi olmasa bile, analist verileri konumların coğrafi temsillerine ekleyebilir ve desen ve aykırı değerler aramak için haritalandırabilir.

  6. Bir analize girebilecek en sinsi hatalardan biri veri kaybıdır. Alanları çıkarırken, verileri özetlerken, veri kümelerini yeniden biçimlendirirken vb. Büyük bir veri kümesinden bir veya iki öğe çıkarılırsa, genellikle işaretlemek için hiçbir şey olmaz. Ancak bazen, keşfedildiği takdirde aşırı utanç için önemli bir şey kaybolur. Bu tür şeylere karşı koruma sağlamak için, önce ve sonra sayım ve toplam veri karşılaştırması gibi basit kontroller rutin olarak yapılmalıdır.

  7. Bir başka sinsi hata, dijital hesaplamadaki tür dönüşümü ile ilişkilidir. Örneğin, son zamanlarda kayan nokta alanından bir anahtar (iki veri dosyasını eşleştirmek için) oluşturmak zorunda kaldım. Yazılım (Stata), alanı bir dosyada tek bir hassas şamandıra olarak, ancak herhangi bir nedenle, başka bir dosyada çift duyarlıklı bir şamandıra olarak içe aktardı. Çoğu zaman değerler eşleşti, ancak birkaç durumda farklı yuvarlama nedeniyle olmadı. Sonuç olarak bazı veriler kaybedildi. Bunu sadece (6) 'nın uygulanması nedeniyle yakaladım. Genel olarak, alan veri türlerinin tutarlılığını kontrol etmek için ödeme yapar: ints ve float, dize uzunlukları, vb.

  8. Bir elektronik tablo, analizin herhangi bir aşamasında kullanılıyorsa, en kötüsünü bekleyin. Sorun, kaçak bir tuş vuruşunun bile verileri görünmez şekilde bozabilmesidir. Sonuçlar kritik olduğunda, hiçbir şeyin gerçekleşmediğinden emin olmak için ileri ve geri gitmeye devam eder - e-tabloya aktarın, analizi yapın, geri içe aktarın ve sistematik olarak karşılaştırın.

  9. Bir veritabanı güncellendiğinde, işlem sırasında hiçbir şeyin kaybolmadığından, değiştirilmediğinden veya bozulmadığından emin olmak için eskisiyle sistematik, tam karşılaştırmaları duraklatmaya ve gerçekleştirmeye değer.

  10. Daha yüksek bir seviyede, ne zaman bir tahmin yapılırsa (regresyon, PCA, ne olursa olsun), duyarlılığı ve hatta koddaki olası hataları kontrol etmek için farklı bir teknik kullanarak bunu yapmak faydalı olabilir. Örneğin, bir OLS regresyonunu bir tür güçlü regresyon ile takip edin ve katsayıları karşılaştırın. Önemli sonuçlar için, iki (veya daha fazla) farklı yazılım platformu kullanarak cevap almak rahat olabilir.

Belki de herkesin yapabileceği en iyi genel "tutarlılık kontrolü" her şeyi erken ve sık sık grafiklendirmektir.


8

Bunun veri bütünlüğü hakkında bir tür Kalite Kontrol ile ilgisi olduğunu ve daha spesifik olarak çalışma veritabanınızın bozuk olup olmadığını düzenli olarak kontrol ettiğinizi varsayalım (aktarım, kopyalama veya güncelleme veya akıl sağlığı kontrolünden sonraki hatalar nedeniyle). Bu aynı zamanda ara hesaplamanızın iki kez kontrol edilmesini sağlamak anlamına da gelebilir (manuel olarak veya istatistiksel yazılımınızdaki ek kod veya makrolar aracılığıyla).

Diğer bilgiler burada bulunabilir: yaklaşık ICH E6 (R1) başvuru kılavuzu , İyi Klinik Uygulama Yönergesi EMEA, İyi Klinik Laboratuvar Uygulamalar Rehberi veya Klinik Araştırma Çalışması Araştırmacı Toolbox .


1

diğer iyi noktalara eklemek

Excel'i kullanırken, her satır için ilk sütun olarak her zaman bir vaka numarası oluştururum, bu daha sonra son sütuna kopyalanır. Excel her seferinde sadece birkaç sütunu sıralamaktan oldukça mutlu görünüyor ve hepsini seçmek için dikkatli değilseniz kaosa neden oluyor. Bunun olduğunu bile bilmiyor olabilirsiniz. Vaka numaralarının bir satırın ilk ve son sütunlarında aynı olup olmadığını kontrol edebilmek yararlı bir önlemdir.

Her zaman aykırı değerleri gözden geçiririm.

Kritik çalışmalar için ayrı kişiler tarafından iki kez veri girişi önerilir.

Kağıt belgelerden veri girerken, girişin türetildiği kesin veri ve satıra geri dönebilmek için bir referans tanımlayıcı kullanmak iyi bir fikirdir, veri giriş formlarının numaralandırılması bu konuda yardımcı olur.

Düzenle - Başka bir öğe - E-tabloları düzenlemenin sorunlarla dolu olduğunu biliyorum, ancak onlarla veri girişini temizlemek çok daha kolay. Ancak, orijinal düzenlenmemiş sürümü de saklıyorum, böylece herhangi bir değişiklik doğrulanabilir veya en kötü durumda geri yüklenebilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.