Hangi teşhisler belirli bir GLM ailesinin kullanımını doğrulayabilir?


19

Bu çok basit görünüyor, ama ben her zaman bu noktada takılıp kalıyorum ...

Ele aldığım verilerin çoğu normal değil ve analizlerin çoğu bir GLM yapısına dayanıyor. Mevcut analiz için, "yürüme hızı" (metre / dakika) olan bir yanıt değişkenim var. OLS'yi kullanamayacağımı tanımlamak kolay, ancak o zaman, hangi ailenin (Gama, Weibull, vb.) Uygun olduğuna karar vermede büyük bir belirsizlik var!

Stata'yı kullanıyorum ve artıklar ve hetero-esneklik, artıklar ve uygun değerler vb. Gibi tanılara bakıyorum.

Sayım verilerinin bir oran (ör. İnsidans oranları) biçiminde olabileceğini ve gama (aşırı dağınık ayrık negatif binom modelleri için analog) kullanabileceğini biliyorum, ama sadece EVET demek için bir "sigara silahı" istiyorum AİLE. Bunu yapmanın tek ve en iyi yolu standart değerlere ve uygun değerlere bakmak mı? Verilerdeki bazı hiyerarşiyi de hesaba katmak için karma bir model kullanmak istiyorum, ancak öncelikle ailenin yanıt değişkenimi en iyi tanımladığı şeyi sıralamamız gerekiyor.

Herhangi bir yardım takdir. Stata dili özellikle takdir!


4
" EVET demek için bir" sigara tabancası "istiyorum, DOĞRU AİLE VAR " - hiçbir şey size bunu söylemeyecektir. Umabileceğiniz en iyi şey açıkça yanlış olmayan bir ailedir. Dağıtımsal bir aile seçmenin birçok yolu vardır, ancak genel olarak a priori veya teorik hususların ve verilerin kendisinden gelen endikasyonların bir kombinasyonunu içerir.
Glen_b-Monica'yı geri yükle

Yanıtlar:


14

Bazı ipuçlarım var:

(1) Artıkların uyumlarla nasıl karşılaştırılması gerektiği her zaman o kadar açık değildir, bu nedenle belirli modeller için tanılamaya aşina olmak iyidir. Lojistik regresyon modellerinde, örneğin, Hosmer-Lemeshow istatistiği, uyum iyiliğini değerlendirmek için kullanılır; kaldıraç değerleri, tahmin edilen oranların çok büyük, çok küçük veya yaklaşık eşit olduğu yerlerde küçük olma eğilimindedir; & yakında.

(2) Bazen bir model ailesi diğerinin özel bir durumu olarak görülebilir, böylece seçiminize yardımcı olması için bir parametre üzerinde hipotez testi kullanabilirsiniz. Örneğin, üstel ve Weibull.

(3) Akaike'nin Bilgi Kriteri, farklı aileler arasında seçim yapmayı içeren farklı modeller arasında seçim yapmak için kullanışlıdır.

(4) Modellediğiniz şey hakkındaki teorik / ampirik bilgi, mantıklı modeller alanını daraltır.

Ancak 'doğru' aileyi bulmanın otomatik bir yolu yoktur; gerçek hayattaki veriler, istediğiniz kadar karmaşık dağıtımlardan gelebilir ve uymaya çalışmaya değer modellerin karmaşıklığı, sahip olduğunuz veri miktarı ile artar. Bu, hiçbir modelin doğru olmadığı, ancak bazılarının yararlı olduğu konusunda Box'ın sözünün bir parçasıdır.

Re @ gung'un yorumu: yaygın olarak kullanılan Hosmer-Lemeshow testinin (a) kutu seçimine şaşırtıcı derecede duyarlı olduğu ve (b) alternatif bazı hipotez sınıflarına karşı diğer bazı testlerden genellikle daha az güçlü olduğu görülmektedir. Bu nokta (1) 'i etkilemez: Güncel olmak da iyidir.


Teşekkürler! Önerileriniz kısa ve öz. Yanıt değişkenimin yapısı (olumlu, sürekli, ama çok eğri) nedeniyle kullanabileceğim ailelerde sınırlıyım. Üstel aile arasında, gamma gerçekten tek seçenek gibi görünüyor. Bu arada, NJ Cox tarafından Stata Jounal 5 (2) 'de görüldüğü gibi bazı yararlı araçlar buldum: 259-273 - gammafit (şekil ve ölçek parametrelerini tahmin ediyor) ve dpplot yoğunluk olasılığı grafiğinin ve yanıt değişkenimin ( birçok dağıtım ile yapılır ve verilerimle en iyi aileyi eşleştirmeme izin verir) .Diğer suggs için de teşekkürler!
RLang

1
Hosmer-Lemeshow GoF testinin kullanılan çöp kutusuna bağlı olduğu / güvenilir olmadığı gösterilmiştir.
gung - Monica'yı eski durumuna getir

@Gung, Bu açıkça kullanılan binning bağlıdır - ideal değil, ama istediğiniz sonucu denemek için binnings ile uğraşmak sürece bu büyük bir sorun olduğundan emin değilim. Nasıl güvenilir değil ve başka hangi testler daha iyi?
Scortchi - Monica'yı eski durumuna döndürün


1
"Geçersiz" in çok güçlü olduğu konusunda haklısın; Ben sadece "güvenilmez" dedim & Harrell "eskimiş" kullanır.
gung - Monica'yı eski durumuna getir

8

R paketi için vinyeti (tanıtım kılavuzu) okumak ilginç olabilir fitdistrplus. Stata'da çalışmayı tercih ettiğinizi anlıyorum, ancak vignette, dağıtım ailelerini veriden çıkarma sürecine dair bazı bilgiler alabileceğinizi yeterince açıklayacaktır. Muhtemelen Stata'daki bazı fikirleri kendi kodunuzla uygulayabileceksiniz. Özellikle, Cullen ve Frey grafiği, Stata'da uygulanabiliyorsa / uygulanabiliyorsa, sizin için yararlı olabilir.


Bu sorunu tekrar gözden geçirdim ve R'ye geçtim ve Zuur ve Ieno'yu bir rehber olarak kullanıyorum. Hala birçok sorun var, ancak genel olarak varIdent kullanarak model tanılamalarımın 'küçük heterojeniteye' sahip olduklarını düşünüyorum. Kalıntıları uygun görünüme karşı çizmek iyi, her bir değişkene karşı dirençler model değişkenlerimden biri için bazı korkak sonuçlar sağlar (yükseklik) - çoğunlukla yüksek yükseklikteki küçük örneklem büyüklüğünün bir fonksiyonu. Fitdistrplus hakkındaki yorumunuz için teşekkür ederiz. Şimdi R ve Rstudio kullanıyorum (love it!) Bu kullanışlı olacak!
RLang


İkinci bağlantı, bahsettiğim vinyetin farklı bir sürümü gibi görünüyor.
gung - Monica'yı eski
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.