Kümelenmiş veriler için uygun önyükleme tekniği?


16

Güçlü kümelenmenin olduğu verilerle kullanılacak uygun önyükleme tekniği ile ilgili bir sorum var.

Modelin hangi bakım bölümlerinin en yüksek seans sıklığını içerdiğini (üst kısım) ne kadar iyi tahmin ettiğini belirlemek için, mevcut temel modeli daha yeni talep verileri üzerinde puanlayarak sigorta talep verileri üzerindeki çok değişkenli karışık etkileri öngörme modelini değerlendirmekle görevlendirildim. 95. persentil). Hassasiyet, özgüllük ve pozitif prediktif değer (PPV) model etkinliğini değerlendirmek için kullanılacaktır.

Önyükleme, duyarlılık, özgüllük ve PPV yüzdeleri için güven aralıkları oluşturmanın doğru yolu gibi görünüyor. Ne yazık ki, istem verilerinin 1) bakım sağlayıcısı ile ilişkili olduğu, 2) bakım bölümünden önceki aylarda daha sık ziyaretlerle gruplanan (bu nedenle bazı otokorelasyon mevcut) göz önüne alındığında saf bir bootstrap uygun değildir. Hareketli blokların önyükleme tekniğindeki bir varyasyon burada uygun olur mu?

Ya da belki de üç aşamalı bir önyükleme prosedürü işe yarayacaktır: 1) verilerdeki farklı sağlayıcılardan değiştirilen örnek, daha sonra 2) seçilen sağlayıcılar tarafından farklı bakım bölümlerinden değiştirilen örnek, daha sonra 3) her biri içindeki farklı iddialardan değiştirilen örnek seçilen bölüm.

Herhangi bir öneriniz için çok teşekkürler!

Yanıtlar:


14

Önerdiğiniz ikinci yaklaşım makul görünmektedir, ancak hiyerarşik verileri önyüklerken yalnızca en üst düzeyde ve yedek alt düzeylerde değiştirmeden örneklemenin daha iyi olduğu ortaya çıkmaktadır. Bu, Ren ve arkadaşlarının (2010) simülasyonlarından gösterilmiştir: http://www.tandfonline.com/doi/abs/10.1080/02664760903046102

Field & Welsh (2007) teorik olarak 2 seviyeli veri kümeleri için farklı yaklaşımları araştırmış ve her iki seviyede yer değiştirme ile örneklemenin parlak bir fikir olmadığını bulmuştur.
http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full

Bahsettiğiniz otokorelasyon ciddi bir sorundur. Öte yandan, bakım bölümlerinden değiştirilmeden seçim yapmak otokorelasyon yapısını koruyabilir, bu yüzden belki de büyük bir sorun değildir.


Aşağıdaki çözümün uygun olup olmadığını merak ediyorum:
Rafael

... üzgünüm önceki yorumumu bitiremedim. İşte: ... Her kümeleme seviyesini dikkate alan bir kod (id) oluşturun (örn. Episoid1.claim1, episoid1.claim1, ..., episoid2.claim1, episoid2.claim2, ..., episoidn.claimp) ve ardından otokorelasyonla başa çıkabilmeniz için GEE kullanın. Bir yerde GEE modellerinin küme yapılarının varlığında bile sağlam tahminler verdiğini okudum. Bu çözüm kulağa makul geliyor mu?
Rafael
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.