John Snow Kolera problemini çözmek için hangi istatistiksel model veya algoritma kullanılabilir?


23

John Snow Kolera salgını verilerine dayanarak, bir tür merkez üssünün coğrafi bir yaklaşımının nasıl geliştirileceğini öğrenmekle ilgileniyorum. Hangi istatistiki modellemenin, kuyuların nereye yerleştirildiğine dair önceden bilgi sahibi olmadan böyle bir problemi çözmek için kullanılabileceği.

Genel bir sorun olarak, zamanın, bilinen noktaların yerini ve gözlemcinin yürüme yolunu bulabilirdin. Aradığım yöntem bu üç şeyi "salgın" merkez üssünü tahmin etmek için kullanacaktı.


2
Kriging modelleri coğrafi tahmin için kullanılır. Başlamak için bir yer olabilir. Zaman bilgisini dahil etmek için bir adım daha ileri gitmeniz ve bir uzamsal-zamansal model kullanmanız gerekir (Ben bunu henüz kullanmadım).
Büyük38

4
@Büyük Kriging'in burada uygulanması zor olacaktır: ekstrema tahmini için uygun değildir, ne de ilgili olan yollar boyunca yürüme zamanının geometrisi için uygun değildir, ne de popülasyon yoğunluğu veya binalardaki işçi sayısı.
whuber

Yanıtlar:


25

Tam veya yetkili bir cevap vermek değil, sadece fikirleri teşvik etmek için, on yıl önce öğrettiğim mekânsal bir istatistik kursunda laboratuar alıştırması için yaptığım hızlı bir analiz sunacağım. Amaç, öklid mesafelerinin kullanılmasına kıyasla muhtemel seyahat yollarının (yaya olarak) doğru bir şekilde hesaplanmasının, nispeten basit bir keşif yöntemi üzerinde ne olacağını görmekti: Çekirdek yoğunluğu tahmini. Yoğunluğun zirvesi (veya zirveleri), kolu Kar kaldırılmış olan pompaya göre nerede olacaktır?

Oldukça yüksek çözünürlüklü raster gösterimi (2946 sıra 3160 sütun) Snow haritasının (uygun şekilde coğrafi referanslı) kullanılmasıyla, haritada gösterilen yüzlerce küçük siyah tabutun her birini sayısallaştırdım (her birini 309 adreste buldum) sokağın adresine karşılık gelen kenarı ve adresle adreslerin her bir yerdeki sayıma göre özetlenmesi.

Giriş verilerinin nokta haritası

Sokakları ve geçitleri tanımlamak için bazı görüntü işlemlerinden sonra, bu alanlarla sınırlı basit bir Gauss difüzyonu yaptım (GIS'de tekrarlanan odaklama araçlarını kullanarak). Bu KDE.

Sonuç kendisi için konuşur - bunu bile açıklamak için bir efsaneye bile ihtiyacı yoktur. (Harita diğer birçok pompayı gösteriyor, ancak hepsi en yüksek yoğunluklu alanlara odaklanan bu görüşün dışında duruyor.)

Renk yoğunluğunu gösteren kar haritası.


VAY. Özetlemek gerekirse; 1. hareket yolunu doğrusallaştırın, 2. bir boyutta düzleştirme gerçekleştirin, 3. düzlemeyi iki boyutta uzatın, 4. yol gezileri boyunca kde'yi ortala?
cylondude

1
Düzeltme 2D olarak gerçekleştirildi, ancak renkle gösterilen bölgeyle sınırlandırıldı. Bunu açıklamanın başka yolları da var. Ancak, “yol gezileri” üzerinde ortalamaya ihtiyaç yoktur (ne olursa olsun). Bu harita kısmen ilginç çünkü hem bir hem de iki boyutlu geometrilerin özelliklerini paylaşıyor.
whuber

Sokaklardaki her A noktası için, adres yerleri arasında B noktasına giden adımların sayısını sayın. Bu basamak sayısını bir Gauss yoğunluğuna takın ve bu değeri B'deki ölümlerin sayısıyla çarpın. A noktasındaki çekirdek yoğunluğunu almak için tüm bu ürünleri (örneğin tüm adres noktalarının üzerine B) ekleyin. sokaklarda. Haritadaki her noktada gördüğümüz yoğunluk bu. Evet?
Hatshepsut

2
@Hatshepsut Bu makul bir teklif. Yaptığım şey biraz farklıydı. Adres (kaynak) konumlarındaki her noktası için, açıkladığınız noktadan yürüme mesafesinde bir Gauss işlevi oluşturdum ve daha sonra normalleştirdim, böylece sokak ızgarasındaki entegrali bu kaynak konumdaki sayıya eşit olacaktı. Bu şekilde her ölüm mahallesine "yayıldı". Bu değerler gösterilen resmi üretmek için tüm kaynak konumlarında toplanmıştır. B
whuber

2
@Hat Gaussian'ın yollara ve yürüyüş yollarına sınırlandırıldığında ayrılmaz bir birime sahip olduğu durum söz konusu değildir! Böylece kesiliyor ve yeniden normalize edilmesi gerekiyor.
whuber

19

[1, §3.2] 'de, David Freedman , sorunuza esasen olumsuz bir cevap önerir . Başka bir deyişle, hiçbir istatistiksel model veya algoritma John Snow'un problemini çözemez. Snow'un problemi, kolera'nın , günümüzdeki geçerli miasma teorisine karşı, su kaynaklı bulaşıcı bir hastalık olduğu teorisini destekleyen eleştirel bir tartışma geliştirmekti . (“İstatistiksel Modeller ve Ayakkabı Derisi” başlıklı [1] 'deki 3. Bölüm, daha önce burada yayınlanan [2] formunda da mevcuttur .)

Freedman, “John Snow'un kendisinin uzun bir alıntı olduğu bu birkaç kısa sayfada [1, s.47–53], Freedman,“ Snow'un 1853–54 yıllarında yaptıklarının gerçektekinden daha ilginç ”olduğunu iddia ediyor Sokak Pompası]. " İstatistiki kanıtların karşılaştırılması kadarıyla (endeks vaka tanımlaması vb. Gibi diğer ilkeler de tartışılır), Snow gerçekten dikkate değer bir yarı deney yapmak için doğal varyasyondan yararlandı .

Daha erken bir zamanda, Londra'daki su tedarik şirketleri arasında şiddetli bir rekabetin yaşandığı ve bunun (Snow'un sözleriyle) “en samimi tür” olan su tedarikinin mekansal olarak karıştırılmasıyla sonuçlandığı ortaya çıktı.

Her bir Şirketin boruları tüm caddelerde ve hemen hemen tüm mahkemelerde ve sokaklarda bulunur. Su Şirketleri aktif rekabet halindeyken, mal sahibinin veya işgalcinin kararına göre, birkaç şirket bir Şirket tarafından ve birkaç diğer şirket tarafından tedarik edilmektedir.

...

Evlerde veya iki Su Şirketinin tedarikini alan insanlarda veya çevrelerinde bulundukları fiziki şartlarda herhangi bir fark olmadığı için, daha kapsamlı bir şekilde test edilecek bir deney tasarlanamayacağı açıktır. su arzının kolera'nın ilerleyişine etkisi, bu koşullar gözlemciden önce hazırlanmıştır.

—John Kar

Bu yarı deneyde sömürülen bir diğer önemli kritik “doğal çeşitlilik” John Snow ise, bir su şirketinin , atık su deşarjlarının akış aşağı yönündeki Thames'te su alımını gerçekleştirirken , diğerinin alımını gerçekleştirmeden önceki birkaç yılını almasıydı . John Snow'un veri tablosundan hangisinin hangisi olduğunu tahmin etmenize izin vereceğim!

                     | Sayısı | Kolera | Başına ölüm
Şirket | evler | ölümler | 10.000 ev
-------------------------------------------------- --------
Southwark ve Vauxhall | 40,046 | 1263 | 315
Lambeth | 26,107 | 98 | 37
Londra'nın geri kalanı | 256,423 | 1422 | 59

Freedman'ın dikkatsizce yazdığı gibi,

Bir istatistiksel teknoloji parçası olarak, [yukarıdaki tablo] hiçbir şekilde dikkate değer değildir. Ancak anlattığı hikaye çok ikna edici. Argümanın gücü, önceki akıl yürütmenin netliği, birçok farklı kanıt satırının bir araya getirilmesi ve Snow'un verileri almak için kullanmaya istekli olduğu ayakkabı derisi miktarından kaynaklanıyor. [1, s.51]

Snow tarafından sömürülen bir başka doğal varyasyon noktası da zaman boyutunda meydana geldi : yukarıda belirtilen su alımı yer değiştirmesi iki salgın arasında gerçekleşti ; ( Twitter üzerinden bu bilgi için [1] 'in bir yazarı olan Philip B. Stark'a teşekkürler . Bu çevrimiçi dersine bakın .)


Bu konu ayrıca, bu cevapta tartışıldığı gibi, tümdengelimcilik ile indüktivizm arasındaki zıtlıkta öğretici bir çalışma sunar .

  1. Freedman D, Collier D, Sekhon JS, Stark PB. İstatistiksel Modeller ve Nedensel Çıkarım: Sosyal Bilimler ile Diyalog. Cambridge; New York: Cambridge Üniversitesi Yayınları; 2010.

  2. Freedman DA. İstatistiksel Modeller ve Ayakkabı Deri. Sosyolojik Metodoloji . 1991; 21: 291-313. DOI: / 270.939 10.2307. Tam metin


1
Yalnızca bir merkez üssünün belirlenmesinin "John Snow'un sorununu" belirtildiği gibi çözmek için yeterli olmayacağına dikkat çekmek için +1. Miasma teorisi, David'in işaret ettiği gibi geçerli bir teoriydi. Miasma teorisini tahrif etmek için, coğrafi oranların nehre yakınlıkta artış göstermediğini göstermek gerekir. Bu soruna modern bir yaklaşım kriging kullanmış olabilir.
AdamO

Teşekkürler, @AdamO; ancak, enteresan bir mekansal karışımın Kriging'e nasıl uyum sağlayacağını merak ediyorum , bu durumda, enterpolasyon tekniğini uygulamak için gerekli sürekliliği neredeyse haklı kılan (Kriging'i anlıyorum gibi).
David C. Norris

Belki de Snow'un sözlerini yanlış anlıyorum: Benim varsayımım, "su pompalarının tedarik kaynaklarının karışması" nın "neredeyse mükemmel bir blok tasarımına atıfta bulunduğudur. A, B, C ... tedarikçilerinin pompaları, kirli suyun koleraya neden olduğu teorisini desteklemekle ilgili. Kriging, nehre olan yakınlığın artan kolera insidansı ile ilişkili olmadığını göstererek miasma hipotezini reddeder. Bu, pompalarda sulama yapan insanlar tarafından desteklenir: miasma boru ile hareket etmiyor.
AdamO

2
@AdamO Aslında, William Farr kolera için ölüm oranlarını inceledi (1849'dan itibaren) ve onları Thames Nehri'nin yukarısındaki yükseklikle karşılaştırdı. Bu değişkenler arasındaki yazışma çarpıcı ve neredeyse kusursuz bir şekilde miasma teorisinin öngörülerine uygundur. Langmuir AD'ye bakınız. Bakteriyolojik İnceleme 25, 174, 1961 ( bmj.com/content/323/7327/1469.full#B4 ). Bu makale, Dr. Snow'un 1858'deki ölümü sırasında bile teorisinin “resmi çevrelerde kabul edilmediğini” belirtmektedir.
whuber

1
Bu referanslar için çok teşekkürler, @whuber. Küratörlük yoluyla, Langmuir makalesinin açık erişim olduğunu unutmayın .
David C. Norris,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.