İstatistiksel adli tıp: Benford ve ötesi


23

Üçüncü bir tarafça üretilen bilimsel çalışmalarda sahtekarlık, anormallikler, sahtekarlık vb. Tespit etmek için hangi geniş yöntemler vardır? (Bunu en son Marc Hauser meselesiyle sormaya motive oldum .) Genellikle seçim ve muhasebe sahtekarlığı için, Benford Yasasının bir türevi belirtildi. Bunun, örneğin Marc Hauser davasına nasıl uygulanabileceğinden emin değilim , çünkü Benford Yasası, sayıların günlük kaydı için tek tip olmasını gerektiriyor.

Somut bir örnek olarak, çok sayıda istatistiksel test için p-değerlerini belirten bir makale olduğunu varsayalım. Bunları tek biçimlilik günlüğüne dönüştürmek, sonra da Benford Yasasını uygulamak olabilir mi? Bu yaklaşımla ilgili her türlü sorun var gibi gözüküyor ( örneğin , boş hipotezlerin bazıları yasal olarak yanlış olabilir, istatistiksel kod sadece yaklaşık doğru olan p-değerleri verebilir, testler sadece düzgün olan p-değerleri verebilir) boş asimptotik olarak vb.


2
Bu sorunun umutsuzca, istatistiksel adli tıptan gerçek örnekler sağlayacak bir cevaba ihtiyacı var! Kabul edilen cevap bunu hiç yapmaz. Örneğin Simonsohn 2013 , Carlisle 2012 (ve 2015 takibi ), Pitt ve Hill 2013 ve belki de daha pek çok harika örnek var.
amip diyor Reinstate Monica,

Yanıtlar:


11

Harika bir soru!

Bilimsel bağlamda çeşitli sorunlu raporlama ve sorunlu davranış türleri vardır:

  • dolandırıcılık : , sonuçları yanlış tanıtmak ve yanlış beyanın yeterince ciddi nitelikte olduğu yazar veya analist adına kasıtlı bir niyet olarak tanımlardım. Ana örnek, ham verilerin veya özet istatistiklerin tamamen üretilmesidir.
  • Hata : Veri analistleri, veri girişinden veri manipülasyonuna, analizlere, raporlamaya, yorumlamaya birçok veri analizi aşamasında hata yapabilir.
  • Uygunsuz davranış : Birçok uygunsuz davranış şekli vardır. Genel olarak, gerçeği aramak yerine belirli bir konumu doğrulamak isteyen bir yönelim ile özetlenebilir.

Yaygın uygunsuz davranış örnekleri şunlardır:

  • Bir dizi olası bağımlı değişkeni incelemek ve sadece istatistiksel olarak anlamlı olanı bildirmek
  • Önemli varsayım ihlallerinden söz etmemek
  • Veri manipülasyonlarını ve genel kaldırma prosedürlerini söz etmeden gerçekleştirme, özellikle bu prosedürlerin uygun olmadığı ve sonuçların daha iyi görünmesi için tamamen seçildiği durumlarda
  • Bir modeli doğrulayıcı olarak sunmak, ki bu aslında keşfedicidir.
  • İstenilen argümana karşı çıkan önemli sonuçları atlamak
  • İstatistiksel bir test seçerek yalnızca sonuçların daha iyi görünmesini sağlar.
  • Yalnızca birinin istatistiksel olarak anlamlı olduğu (belki de p = .04'te) beş veya on güçsüz çalışma dizisini çalıştırmak ve diğer çalışmaları belirtmeden çalışmayı raporlamak

Genel olarak, bu yetersizliği hipotez ederim üç sorunlu davranış biçiminin tümü ile ilgili . İyi bilimin nasıl yapıldığını anlamayan, ancak başarılı olmayı isteyen bir araştırmacı, sonuçlarını yanlış tanıtmaya daha fazla teşvik edecektir ve etik veri analizi ilkelerine saygı duyması daha az olasıdır.

Yukarıdaki ayrımların, problemli davranışların tespiti için etkileri vardır. Örneğin, bir dizi raporlanan sonucun yanlış olduğunu ayırt etmeyi başarırsanız, sonuçların sahtekarlık, hata veya uygunsuz davranıştan kaynaklanıp kaynaklanmadığına dair hala tespit edilmesi gerekir. Ayrıca, çeşitli uygunsuz davranış biçimlerinin dolandırıcılıktan çok daha yaygın olduğunu varsayardım.

Sorunlu davranışı tespit etmekle ilgili olarak, bunun büyük ölçüde verilerle çalışma, bir konuyla çalışma ve araştırmacılarla çalışma deneyiminden kaynaklanan bir beceri olduğunu düşünüyorum.. Tüm bu deneyimler, verilerin nasıl görünmesi gerektiği konusundaki beklentilerinizi güçlendirir. Böylece, beklentilerden büyük sapmalar bir açıklama arayışı sürecini başlatır. Araştırmacılarla yapılan deneyimler size az ya da çok yaygın olan uygunsuz davranış biçimleri hakkında bir fikir verir. Kombinasyon halinde bu, hipotez oluşumuna yol açar. Örneğin, bir dergi makalesini okuduğumda ve sonuçlardan şaşırdığımı söylesem, çalışma yeterince desteklenmiyor ve yazının niteliği yazarın bir noktaya değindiğini gösteriyor, sonuçların belki de olmaması gerektiği hipotezini ortaya koyuyorum. güvenilir.

Diğer kaynaklar


4

Aslında, Benford Yasası inanılmaz derecede güçlü bir yöntemdir. Bunun nedeni, Benford'un ilk rakamdaki frekans dağılımının gerçek veya doğal dünyada meydana gelen her türlü veri setine uygulanabilir olmasıdır.

Benford Yasasını yalnızca belirli durumlarda kullanabilme hakkınız vardır. Verilerin tek tip bir günlük dağılımına sahip olması gerektiğini söylüyorsunuz. Teknik olarak, bu kesinlikle doğru. Ancak, gereksinimi çok daha basit ve esnek bir şekilde tanımlayabilirsiniz. İhtiyacınız olan tek şey, veri kümesi aralığının en az bir büyüklük sırasını geçmesidir. Diyelim ki 1'den 9'a veya 10'dan 99'a veya 100'den 999'a. Diyelim ki iki büyüklük derecesini aşıyorsa, iştesiniz. Ve, Benford Yasası oldukça yardımcı olmalı.

Benford Yasasının güzelliği, araştırmalarınızı, veri yığınındaki iğne (ler) üzerindeki çok hızlı bir şekilde daraltmanıza yardımcı olmasıdır. İlk basamak frekansının Benford frekanslarından çok farklı olduğu anomalileri ararsınız. İki 6 kişinin olduğunu fark ettiğinizde, Benford Yasasını sadece 6'lara odaklanmak için kullanırsınız; ama şimdi onu ilk iki haneye götürürsünüz (60, 61, 62, 63 vb.). Şimdi, belki de Benford'un önerdiğinden çok daha 63'lerin olduğunu öğrenirsiniz (Benford'un frekansını hesaplayarak bunu yaparsınız: log (1 + 1/63)% 0'a yakın bir değer veren). Yani, Benford'u ilk üç haneye kullanıyorsunuz. Öğrendiğiniz zaman çok fazla 632 (ya da Benford'un frekansını hesaplayarak ne olursa olsun: log (1 + 1/632)) tahmin edeceğinizden çok daha fazla şey olabilir. Tüm anomaliler dolandırıcılık değildir. Fakat,

Marc Hauser'in manipüle ettiği veri kümesi, yeterince geniş bir ilişkili aralığa sahip doğal sınırlandırılmamış veriler ise, Benford Yasası oldukça iyi bir teşhis aracı olacaktır. Beklenmedik kalıpları tespit eden başka iyi tanı araçları da var ve bunları Benford Yasası ile birleştirerek büyük olasılıkla Marc Hauser'in işleyişini etkili bir şekilde araştırmış olabilirsiniz (Benford Yasası'nın belirtilen veri gereksinimini dikkate alarak).

Benford Yasasını burada görebileceğiniz kısa sunumda biraz daha açıklarım: http://www.slideshare.net/gaetanlion/benfords-law-4669483

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.