Çıkarım iş akışında görselleştirme


9

Bir halk sağlığı departmanına istatistiksel destek veriyorum. Tahmin edebileceğiniz gibi, birçok haritayı düzenli olarak bir araya getiriyoruz. Benim için haritalar sadece başka bir tür veri görselleştirmesidir - veriyi hissetmek, hipotezler üretmek ve kontrol etmek için yararlıdır. Ancak, gerçek modelleme ve hipotez testlerini sık sık takip etmiyoruz .

Siz / kuruluşunuz bunu nasıl gerçekleştiriyorsunuz? Çıkarım içeren bir iş akışı neye benziyor? Kimler katılıyor? Hangi araçları kullanıyorsun? Yolunuz olsaydı, ideal olarak neye benzeyecekti?

Teşekkürler!

DÜZENLE

Açık olmak gerekirse, uzamsal verilerden dünyada olup bitenlerle ilgili hipotezlerin resmi, istatistiksel testlerine geçmenin farklı stratejilerini merak ediyorum. Örneğin, tüberküloz testini artırmak için bir eğitim kampanyası hedeflemeye çalıştığımı varsayalım. İlgilenilen ortak değişkenlere (örneğin, medyan gelir veya yabancı uyrukluların yüzdesi) karşı TBC vakalarını (şahsen) haritaya koyacağım ve herhangi bir kalıp olup olmadığını görmeye çalışacağım.

Ben bulabilirim ya da bulamayabilirim; ancak sonuçta bu ortak değişkenler ile demografi sayısı arasındaki ilişkiyi tahmin etmek için bir model oluşturacağım. Bu, insanların var olmayan yerlerde kalıp bulmada veya ilginç olmayanları bulmada ne kadar iyi olduğu için kritik bir adımdır. Bunu kendi başıma nasıl yapacağımı biliyorum, ama farklı organizasyonların nasıl kurumsallaştığını merak ediyorum (eğer varsa).


Harika bir soru!
whuber

Sınırlı bir aşı tedarikinin mevcut olduğu bir hastalık salgını varsa, aşıyı en uygun şekilde dağıttığınızı gösterebilmeniz için bir iş akışına ihtiyacınız olduğunu mu söylüyorsunuz?
Kirk Kuykendall

Genel olarak, insanların istatistiksel çıkarımları haritalama süreçlerine nasıl dahil ettikleri ile ilgileniyorum. Açıkladığınız şey kesinlikle olası bir senaryo, ancak başka birçok şey var ve özellikle epidemiyolojinin yanıtlarıyla ilgilenmiyorum.
Matt Parker

Yanıtlar:


2

Çok ilginç bir soru!

İlk olarak, sorunuz 'veri madenciliği' olarak adlandırdığım şeyle ilgilidir ve buradaki bazı insanlar bunu alamayabileceği için sorunu açıkça yeniden ifade etmeye değer olduğunu düşünüyorum: istatistiksel olarak geçerli bir veri kümesi (uzamsal olması gerekmez) Bu ilişki, sözleşmenin% 95 olasılık veya üzerinde olması gerektiğidir. Ancak, 20 test yaparsanız, elde ettiğiniz 'istatistiksel olarak geçerli' sonuçlardan en az birinin saf şanstan kaynaklandığı şans yüksektir. Bu nedenle, değişkenler arasındaki birçok olası ilişkiyi görselleştirmek, ilginç bir ilişki bulmak ve istatistikleri takmak ve sonucu tek testmişsiniz gibi göstermek için bir veri setiyle oynamak (GIS'te haritalamak olurdu) kötü uygulaması yapmıştı. Sonucu kullanmaya devam edebilirsiniz, ancak yaptığınız test sayısını hesaba katmanız gerekir.

Sürüş yaptığınız bu muydu?

Sorunuz, insanların bu sorundan kaçınmayı nasıl resmileştirdiğini soruyor gibi görünüyor. Cevabım, bahsettiğiniz 'hiç değil' seçeneğinin yaygın olduğudur. Deneyimlerime göre tıbbi istatistikçiler (örneğin kız arkadaşım), bu tür süreçlere diğer alanlarda bulunanlardan çok daha yüksek bir titizlik standardı uyguluyor, halk sağlığı dışında her türlü veri eşlemesinin resmi bir değerlendirme yapılmadan yapıldığından şüpheleniyorum. İşlemi düzgün anlamadan körü körüne uygulanan istatistik formüllerindeki sorun. Jeolojik bir örnek akla geliyor:

Yazarların Afrika'daki jeolojik ve mekansal etkilerle ilgili sondaj veriminin (pompalanabilecek su miktarı), örneğin yatak kayaçları vurulmadan önce kazılan çakıl tabakasının kalınlığına nasıl baktığına dair hakemli bir makaleyi okudum. Fikir, sondaj kuyuları için en iyi yerleri hedefleyebilmeleri için sondaj kuyularına yardımcı olmaktı. Yazarlar, hangilerinin% 95 güven düzeyi ile geldiğini görmek için her türlü değişkeni birleştiren verileri açık bir şekilde mayınladı ve gözden geçirenlerin hiçbiri sonuçların geçerliliğini sorgulamadı. Bu nedenle sonuçları tamamen güvenilmezdi.

Umarım bu ilgi çekicidir


Açıkladığınız kağıdın neden güvenilmez olduğunu biraz daha açıklayabilir misiniz? Durumun bu olduğu bana açık değil. İlişki istatistiksel olarak mevcutsa, onu tanımlamak için kullandığınız 'zihinsel model' önemli mi? Mekanizmayı açıklamadığını anlıyorum, ama bu ayrı bir konu.
djq
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.