Çoklu değerlendirme ve model seçimi


21

Tahmin etmek istediğiniz priori lineer bir modeliniz olduğunda çoklu değerlendirme oldukça basittir . Bununla birlikte, bazı model seçimleri yapmak istediğinizde işler biraz daha zor görünmektedir (örneğin, daha büyük bir aday değişken kümesinden "en iyi" tahmin değişkenleri kümesini bulun - özellikle R'yi kullanarak LASSO ve fraksiyonel polinomları düşünüyorum).

Bir fikir, modeli orijinal verilere eksik değerlerle sığdırmak ve daha sonra bu modeli MI veri setlerinde yeniden tahmin etmek ve tahminleri normalde yaptığınız gibi birleştirmek olacaktır. Ancak, başlangıçta "yanlış" bir model seçilmesine yol açabilecek önyargı (ya da MI neden ilk sırada?) Beklediğiniz için bu sorunlu görünüyor.

Başka bir fikir, her MI veri setinde kullandığınız model seçim sürecinden geçmek olacaktır - fakat farklı değişken kümeleri içeriyorsa sonuçları nasıl birleştirirsiniz?

Düşündüğüm bir düşünce, bir MI veri kümesini kümelemek ve bunları daha sonra tek bir "en iyi" modele sığdırmak için kullanacağınız büyük bir veri kümesi olarak analiz etmek ve bunun için tekrarlanan ölçümleri kullandığınız gerçeğini hesaba katan rastgele bir etki içermesiydi. Her gözlem.

Bu mantıklı geliyor mu? Ya da belki inanılmaz derecede saf? Bu konuyla ilgili herhangi bir işaretçi (birden fazla değere sahip model seçimi) çok takdir edilecektir.


2
Lütfen "model fitting" i "model seçimi" olarak değiştirmek için bu yazıyı düzenleyin. Hangi yöntemi kullandığınızı tartışmak da faydalı olacaktır. Örneğin, eğer p-değerlerine göre kademeli model seçimi kullanılıyorsa, o zaman emsal verinin istiflenmesi kesinlikle yasaktır Eksik veri dahil MI ve sonraki model seçim sürecini içeren verilerinizin önyükleme örneklerini çizebilir ve seçilen model için tam bir "p-değeri" hesaplayabilirsiniz.
AdamO

İkinci paragrafınızda, neden bu yöntemin çoklu değerlendirme noktasını özlediğini düşünüyorsunuz? Ayrıca, hangi yazılımı kullanıyorsunuz?
Peter Flom - Eski Monica

Yanıtlar:


10

Çoklu çarpımlı verilerden değişkenleri seçmek için yapabileceğiniz birçok şey var, ancak bunların hepsi uygun tahminler vermiyor. Bkz Wood ve arkadaşları (2008) Stat Med çeşitli olasılıklar karşılaştırma için.

Aşağıdaki iki aşamalı prosedürü pratikte faydalı buldum.

  1. mmm
  2. m

Seçim öncesi adım 1, hesaplama miktarını azaltmak için dahil edilmiştir. R kullanımındaki iki aşamalı yöntemin bir kod örneği için http://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (bölüm 6.4.2) bölümüne bakın mice(). Stata'da 2. adımı (tüm değişkenlerde) ile gerçekleştirebilirsiniz mim:stepwise.


Stef, lütfen Stat Med yayınına bağlantıyı ekle. Ben de cevabını biraz güzelleştirmeye çalıştım.
StasK

1
Önerilen rutin yalnızca önceden belirlenmiş bir regresör grubundan seçtiğinizde anlamlı olabilir. Ancak, ikinci dereceden bir eğilim, 5- ve 9-knot B-spline'lar ve bir CART olabilirse, bu teklifin nasıl uygulanacağından emin değilim.
StasK

Stas, prosedür emir modelinin doğru olduğunu varsayar. Özellikle, emir yöntemi, daha sonra ilginizi çekebilecek verilerdeki tüm özellikleri uygun bir şekilde yakalamalıdır. Bu nedenle, tam veri analizinize ikinci dereceden terimler veya B-spline'ları dahil etmek istiyorsanız, o zaman empoze modeli, bu özelliklerin empoze edilen verilerde korunacak şekilde kurulmalıdır (Not: bu gerçekten elde edilmesi zor olabilir) , ama bu kendi başına bir konudur). İmdat modelinin doğru bir şekilde belirtilmesi durumunda, iki aşamalı seçim prosedürünün geçerli olduğunu söyleyebilirim.
Stef van Buuren

Öyleyse, temel olarak, emir alma modeli mümkün olan en zengin model olmalıdır. Aşırı ölçülen lojistik modellerde mükemmel tahminler gibi, bunun tam olarak işe yaramadığı durumlar ile karşılaştım.
StasK

Kabul. Mümkün olan en zengin model altında uygulamak zorunda kalacaksınız. Bu nedenle, ilk önce yapmak istediğiniz en karmaşık analizleri tanımlayın ve etkileme modelini buna göre ayarlayın. Uygulamada bunu başarmak zor olabilir ve tüm veri modelinin karmaşıklığı arttıkça zorlaşır. Bedava öğle yemeği yok. Lojistik regresyonda mükemmel öngörü, çeşitli yollarla çözüldü ve büyük bir tökezleme bloğu sunması gerekmez.
Stef van Buuren

4

Çok basit: Standart MI birleştirme kurallarını uygulayabilirsiniz - ancak belirtilen veri kümeleri boyunca desteklenmeyen değişkenlerin etkileri daha az belirgin olacaktır. Örneğin, bir değişken belirli bir belirli veri kümesinde seçilmezse, tahmini (varyansı da dahil olmak üzere) sıfırdır ve bunun çoklu değerlendirme kullanılırken kullanılan tahminlere yansıtılması gerekir. Model seçim belirsizliğini birleştirmek için güven aralıkları oluşturmak için ön yükleme yapmayı düşünebilir, tüm soruları ele alan bu yayına göz atabilirsiniz: http://www.sciencedirect.com/science/article/pii/S016794731300073X

M / 2 veri kümelerinde veya sth benzerinde seçiliyse bir değişken seçmek gibi pragmatik yaklaşımlar kullanmaktan kaçınırdım, çünkü çıkarım ilk bakışta göründüğünden daha net ve daha karmaşık değildir.


3

Ben de aynı problemi yaşıyordum.

Benim seçimim, "çoklu empoze kement" denilen şeydi. Temel olarak tüm aktarılan veri kümelerini bir araya getirir ve grup kement kavramını benimser: her aday değişken m kukla değişkenler oluşturur . Her bir yapay değişken değişken bir veri setine karşılık gelir.

Sonra tüm m kukla değişkenleri gruplandırılmış. Tüm aday veri kümelerinde bir aday değişkenin m kukla değişkenlerini atarsınız veya tüm emsal veri kümelerinde saklarsınız.

Bu yüzden, kement regresyonu aslında tüm aktarılan veri kümelerine birlikte uyar.

Kağıdı kontrol et :

Chen, S. & Wang, S. (2013). "Dioksin maruziyet çalışmasına uygulamayla çarpılmış veri için değişken seçimi," Tıp İstatistikleri, 32: 3646-59.

Ve ilgili bir R programı


Sanırım bu konuda birkaç yıl önce size e-posta ile
yolladım

1

Benzer bir sorunla karşı karşıya kaldım - başlangıçtan itibaren tüm değişkenleri dahil etmek istediğimi (katsayılarla tahminden daha fazla ilgilendim) bildiğim bir veri setine sahibim, ancak priori hangi etkileşimlerin belirtilmesi gerektiğini.

Benim yaklaşımım, bir dizi aday model yazmak, birden fazla değerlendirme yapmak, birden fazla modeli tahmin etmek ve AIC'leri her bir modelden kurtarmak ve ortalamaktı. AIC ortalaması en düşük olan model spesifikasyonu seçildi.

AIC'deki değerleme farkını cezalandırdığım bir düzeltme eklemeyi düşündüm. Ancak yansıma üzerine, bu anlamsız görünüyordu.

Yaklaşım bana yeterince basit gözüküyordu ama ben kendim icat ettim ve ünlü bir istatistikçi değilim. Kullanmadan önce, insanların beni düzeltmesini bekler (bu hoş geldiniz!) Veya bu cevabı yenileştirmek isteyebilirsiniz.


Yanıt için teşekkürler. Ne yazık ki, gerçekten ilgilendiğim şey, öncelikle makul bir aday model kümesi seçmeye kendilerini ödünç vermeyen daha otomatik / keşif model seçim yöntemleri kullanmak.
DL Dahly
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.