Genelleştirilmiş doğrusal karışık modeller: model seçimi


10

Bu soru / konu bir meslektaşı ile bir tartışma geldi ve ben bu konuda bazı fikirler arıyordum:

Bazı verileri rastgele etkiler lojistik regresyonu, daha kesin olarak rastgele bir kesme lojistik regresyonu kullanarak modelleniyorum. Sabit etkiler için ilgi çekici ve dikkate alınan 9 değişkenim var. Önemli değişkenleri bulmak ve “en iyi” modeli vermek için bir çeşit model seçimi yapmak istiyorum (sadece ana efektler).

İlk fikrim AIC'yi farklı modelleri karşılaştırmak için kullanmaktı, ancak 9 değişkenle 2 ^ 9 = 512 farklı modeli (anahtar kelime: veri tarama) karşılaştırmak için çok heyecan verici değildim.

Bunu bir meslektaşımla tartıştım ve bana GLMM'lerle aşamalı (veya ileri) model seçimini okumayı hatırladığını söyledi. Ancak bir p değeri kullanmak yerine (örn. GLMM'ler için bir olasılık oranı testine dayanarak), giriş / çıkış kriteri olarak AIC kullanılmalıdır.

Bu fikri çok ilginç buldum, ancak bunu daha fazla tartışan herhangi bir referans bulamadım ve meslektaşım onu ​​nerede okuduğunu hatırlamadı. Birçok kitap modelleri karşılaştırmak için AIC'nin kullanılmasını önerir, ancak bunu adım adım veya ileri model seçim prosedürüyle birlikte kullanma hakkında herhangi bir tartışma bulamadım.

Temelde iki sorum var:

  1. AIC'yi giriş / çıkış kriteri olarak aşamalı bir model seçim prosedüründe kullanmanın bir yanlışlığı var mı? Evetse, alternatif ne olurdu?

  2. Yukarıdaki prosedürü tartışan bazı referanslarınız var mı (nihai rapor için referans olarak da?)

En iyi,

Emilia


3
Kademeli model seçimi, tam alt küme seçimi kadar veri taramasıdır (aslında çok daha kısa sürede aynı çözümü bulmaya çalışır). AIC tabanlı seçim de veri taramadır.
Michael M

Yanıtlar:


8

Çok kademeli modellerde "normal" regresyonda yanlış olması nedeniyle kademeli seçim yanlıştır: p-değerleri çok düşük olacaktır, standart hatalar çok küçük olacaktır, parametre 0'dan uzaklaştı. düşünme fırsatı.

9 IV'ler çok fazla değil. Neden bu 9'u seçtin? Elbette bir sebebin vardı.

Yapılması gereken ilk şey, birçok arsaya bakmaktır; bu kesin olanlar, verilerinizin uzunlamasına (bu durumda x ekseninde zamana sahip çizimler genellikle yararlıdır) veya kümelenmiş olmasına bağlıdır. Ancak mutlaka 9 IV ve DV'niz arasındaki ilişkilere bakın (paralel kutu grafikleri basit bir olasılıktır).

İdeal olan, temel mantığa dayalı birkaç model oluşturmak ve bunları AIC, BIC veya başka bir önlem kullanarak karşılaştırmak olacaktır. Ancak, belirli bir model en iyi şekilde ortaya çıkmazsa şaşırmayın. Hangi alanda çalıştığınızı söylemiyorsunuz, ancak birçok (en çok?) Alanda doğa karmaşık. Birkaç model eşit olarak iyi uyuyor olabilir ve farklı bir model farklı bir veri setine daha iyi uyuyor olabilir (her ikisi de aynı popülasyondan rastgele örnekler olsa bile).

Referanslara gelince - doğrusal olmayan karışık modeller hakkında birçok iyi kitap var. Hangisi sizin için en iyisi aşağıdakilere bağlıdır: a) Hangi alanda olduğunuz b) Verilerin doğası nedir c) Hangi yazılımı kullandığınız.

Yorumunuza yanıt verme

  1. 9 değişkenin tümü bilimsel olarak önemliyse, en azından hepsini dahil etmeyi düşünürüm. Herkesin düşündüğü bir değişken önemliyse, küçük bir etkiye sahip olur, bu ilginçtir.

  2. Kesinlikle tüm değişkenlerinizi zaman içinde ve çeşitli şekillerde çizin.

  3. Uzunlamasına çok düzeyli modeller hakkında genel konular için Hedeker ve Gibbons'ı seviyorum ; SAS'daki doğrusal olmayan uzunlamasına modeller için Molenberghs ve Verbeke'yi seviyorum . SAS belgelerinin kendisi de (for PROC GLIMMIX) rehberlik sağlar.


Bu çalışmada, denekler zaman içinde farklı ilaç ve egzersiz kombinasyonlarına maruz kalmıştır ve ilgi sonucu belli bir solunum rahatsızlığının varlığıdır (evet / hayır). Hastalar 6 ayda 6 haftada bir tekrarlanır. Yazılım açısından SAS ve R'yi kullanıyorum. Bilimsel önemi nedeniyle araştırmacı tarafından seçilen 9 IV.
Emilia

Verilerin incelenmesi algoritmik model seçimini kullanmaktan daha kötü olmasa da kötüdür. Bunun nedeni, algoritmik model seçiminin iyi anlaşılmış olması ve potansiyel olarak ayarlanabilmesidir; verilere bakmak ve öznel yargıyı kullanmak, tekrarlanamayan veya düzeltilemeyen bir süreçtir. Her durumda, model seçimi çıkarımı geçersiz kıldığından, model seçimi yapmaktan kaçınırım. Burada sadece 9 ortak değişken bulunduğundan, en iyi tavsiyenin tam modelle veya yalnızca maddeye göre seçilen bir modelle çalışmak olduğunu düşünüyorum.
user3903581

3

Model seçimi LASSO gibi büzülme yöntemleri kullanılarak daha iyi yapılabilir. Kademeli yöntemler çok liberaldir. Bir gerekçe Tibshirani'nin web sayfasında bulunabilir. R glmmLassokullanıyorsanız, LASSO büzülme yöntemini kullanarak genelleştirilmiş doğrusal karışık efekt modellerinde model seçimine izin veren bir paket var .


1

R'de (aptallar için de iyi) AIC tabanlı karışık model seçimi için iyi bir referans Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.