Veri işleme hataları istatistiksel analize zaten 'fiyatlandırılmıştır' mi?


10

Tamam, adil uyarı - bu sayı içermeyen felsefi bir sorudur. Hataların zaman içinde veri kümelerine nasıl girdiğini ve bunun analistler tarafından nasıl ele alınması gerektiğini ya da gerçekten önemli olup olmadığını çok düşündüm.

Arka plan için, analizi 7-8 yıl içinde muhtemelen 25 kişi tarafından toplanan birçok veri kümesini içeren uzun vadeli bir çalışma üzerinde yapıyorum - hiç kimse tüm verileri tutarlı bir yapıya getirmedi (bu benim işim). Çok fazla veri girişi yapıyorum (eski laboratuvar dizüstü bilgisayarlarının fotokopilerinden kopyalanıyor) ve diğer insanların yaptığı küçük transkripsiyon hatalarını bulmaya ve aynı zamanda okunması zor veya imkansız veri girişlerini bulmaya devam ediyorum - çoğunlukla mürekkep zamanla kayboldu. Verilerin söylediklerini 'en iyi tahminler' yapmak için bağlam kullanıyorum ve oldukça emin değilsem verileri tamamen dışarıda bırakıyorum. Ancak her veri kopyalandığında, orijinal veriler tamamen kaybolana kadar hata sıklığı kaçınılmaz olarak artacaktır.

Bu, beni bir düşünceye götürüyor: enstrüman / ölçüm hataları ve kayıt hatalarına ek olarak, zamanla ve verilerin daha fazla işlenmesiyle artacak temel bir 'veri işleme hatası' bileşeni var (yan not: bu muhtemelen Termodinamiğin 2. yasasını belirtmenin başka bir yolu, değil mi? Veri entropisi her zaman artacaktır). Sonuç olarak, veri setlerinin yaşam geçmişini (bir Bonferroni düzeltmesine benzer bir şey) açıklamak için bir tür 'düzeltme' yapılmasının gerekip gerekmediğini merak ediyorum. Başka bir deyişle, eski veya daha fazla kopyalanmış veri kümelerinin daha az doğru olduğunu varsaymalıyız ve eğer öyleyse, bulguları buna göre ayarlamalıyız?

Ama sonra diğer düşüncem, hataların veri toplama ve veri işlemenin ayrılmaz bir parçası olduğu ve tüm istatistiksel testler gerçek dünya verileri ile geliştirildiğinden, belki de bu hata kaynakları analize zaten 'fiyatlandırılmıştır'?

Ayrıca, kayda değer başka bir nokta, veri hataları rastgele olduğu için, bulmanın gücünü iyileştirmekten daha fazla azaltma olasılıklarının daha yüksek olmasıdır - başka bir deyişle, veri işleme hataları Tip 1 hatalarına değil Tip 2 hatalarına yol açacaktır. . Bu nedenle, birçok bağlamda, eski / şüpheli veriler kullanıyorsanız ve yine de bir etki bulursanız, bu etkinin gerçek olduğuna dair güveninizi artıracaktır (çünkü veri kümesine rastgele hata eklemeden kurtulmaya yetecek kadar güçlüydü). Bu nedenle, belki de 'düzeltme' başka bir yoldan gitmeli ('bulma' için gereken alfa seviyesini artırmalı), ya da bizi rahatsız etmemeli mi?

Her neyse, çok ayrıntılı ve geniş olduğu için özür dilerim, bu soruyu nasıl daha kısaca soracağımdan gerçekten emin değilim. Benimle taşıdığın için teşekkürler.


7
Harika bir soru (+1). Ancak bir nokta: bahsettiğiniz veri hatalarının çoğunu "rastgele" olarak değerlendirmek önemli bir hata olabilir. Örneğin, transkripsiyonlar sırasında "0", "5", "6" ve "8" rakamlarının diğer rakamlardan çok daha fazla değiş tokuşu olma eğilimindedir (ve bunların bazıları "." Olarak yanlış okunabilir ve bunun tersi de geçerlidir). ). Ayrıca, belirgin veri değerlerinde (aşırı uçlar gibi) yapılan değişiklikler genellikle hızlı bir şekilde tanımlanır ve sabitlenir. Bu veri bozulma süreçlerinde kesinlikle bir şans unsuru olmasına rağmen, bunların doğru bir şekilde tanımlanması önemli bir sorun olabilir.
whuber

1
Neden veri işleme hatalarını ölçüm hatalarının bir parçası olarak görmüyorsunuz ve bunlarla ilgilenmiyorsunuz? Eğlence parkı binicilerinin sayısını ölçmek için, kapıları izlemek için 20 kişiyi konuşlandırmam gerekiyorsa, bu 20 kişilik ekibi bir çeşit ölçüm cihazı olarak düşünebilirim
Aksakal

@whuber, 8 ve 5'i karıştırmak hala rastgele, ancak 5 ve 7'yi karıştırmakla eşit olasılıkları olmayabilir .
Aksakal

1
@whuber, düşünmediğim büyüleyici bir nokta (belirli transkripsiyon hatalarının eşit olmayan sıklığı). Bu konuda daha fazla bilgi edinmek için beni herhangi bir kaynağa yönlendirebilir misiniz? Rakam frekansına dayalı bir veri kalitesi testinin geliştirilip geliştirilemeyeceğini merak ediyor musunuz? Rakam frekansına dayalı hileli / sahte veriler için benzer testler duydum, bu yüzden bahsettiğiniz trendler tutarlıysa benzer bir şeyin mümkün olacağını hayal ediyorum.
Jas Max

@whuber, bir düşünce daha. 0, 5, 6, 8'in sık sık karıştırıldığından bahsediyorsunuz - çünkü birbirine benziyorlar mı? Farklı hata kaynaklarının karakteristik ikame hatalarına sahip olacağını fark etmemi sağlıyor - örneğin, verileri duyuyorsanız (birisinin söylediklerini kaydediyorsanız), 5 ve 9'un muhtemelen daha sık karıştırılacağını düşünüyorum. Hata kaynağı entropi (mürekkep solması veya hareketli elektronlar) olsaydı, ikamenin daha rastgele, ama muhtemelen de benzersiz olacağını düşünüyorum. Bu modeller tutulursa, büyük veri kümelerindeki hata kaynaklarını rakam sıklığına dayalı olarak araştırabilirsiniz.
Jas Max

Yanıtlar:


3

İkinci olarak @Aksakal'ın önerisi: Ölçüm hatası analist tarafından potansiyel olarak önemli görünüyorsa, veri oluşturma sürecinin bir parçası olarak açıkça modellenebilir ve modellenmelidir.

Örneğin, veri kümesinin yaşına dayalı olarak genel bir düzeltme faktörünün kullanılmasına karşı çıkan birkaç noktayı görüyorum.

Birincisi, veri bozulma derecesi için yaş çok zayıf bir proxy olabilir. Çoğaltma, sıkıştırma ve koruma teknolojisi ve doğru transkripsiyonun doğrulanmasına yönelik çaba ve bakım derecesi, görünüşte önemli faktörlerdir. Bazı eski metinler (örneğin, İncil) yüzyıllar boyunca görünüşte sıfır bozulma ile korunmuştur. Sizin VHS örneği, meşru ise, her çoğaltılması olay hep hata tanıtır ki, aslında sıradışı ve transkripsiyon hataları için ve doğru kontrol etmek kolay yolu vardır değildir - eğer bir kullanım ucuz, çoğaltma ve depolama için yaygın olarak kullanılan teknolojiler. Daha pahalı sistemlere yapılan yatırımlarla ortaya çıkan hataların derecesini önemli ölçüde düşürmeyi bekliyorum.

Bu son nokta daha geneldir: verilerin korunması ve yayılması ekonomik faaliyetlerdir. Aktarımın kalitesi büyük ölçüde dağıtılan kaynaklara bağlıdır. Bu seçimler, verilerin çoğaltılmasını ve iletilmesini kimin yaptığı için algılanan önemine bağlı olacaktır.

Ekonomik düşünceler analist için de geçerlidir. Analizinizi yaparken daima göz önünde bulundurabileceğiniz daha fazla faktör vardır. Veri kopyalama hataları hangi koşullar altında dikkate almaya değer olacak kadar önemli ve yeterince önemli olacaktır? Benim önsezim: bu tür koşullar yaygın değildir. Ayrıca, potansiyel veri bozulması analizinizde hesaba katmaya yetecek kadar önemli görülürse, genel bir "düzeltme" adımı eklemek yerine, süreci açıkça modelleme çabası göstermeniz muhtemelen önemlidir.

Son olarak, böyle bir genel düzeltme faktörü de novo geliştirmeye gerek yoktur . Ölçüm hatasının önemli görüldüğü veri setlerini analiz etmek için önemli bir istatistik teorisi ve uygulaması halihazırda mevcuttur.

Özetle: ilginç bir düşünce. Ancak analitik uygulamada herhangi bir değişiklik olması gerektiğini düşünmüyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.