Model Seçimi: Lojistik Regresyon


13

Varsayalım değişkeni ve bir ikili sonuç değişkeni . Bu ortak değişkenlerin bazıları kategorik olarak çok seviyelidir. Diğerleri süreklidir. "En iyi" modeli nasıl seçersiniz? Başka bir deyişle, hangi ortak değişkenlerin modele dahil edileceğini nasıl seçersiniz?x 1 , , x n ynx1,,xny

Modelini misiniz kovaryatların her biri ayrı ayrı basit lojistik regresyon kullanılarak ve önemli bir dernek ile olanları seçin ile?y


1
Aşağıdaki cevabımın yanı sıra (veya ortaya çıkan başkaları da), aşağıdakilerin iyi bir model seçimi tartışması var (her ne kadar lojistik regresyona odaklanmasa da) istatistikleri.stackexchange.com/questions/18214/…
gung - Monica'yı

2
@Jthetzel'e bu sitedeki son bir yorumdan alıntı yapacağım: "İyi bir soru, ama burada en çok yarıyıl süren üniversite derslerinde okudum ve bazıları kariyer okumak için harcadı." Sanki biriyle oturup "Bana bu öğleden sonra Svahili öğretebilir misin?" Gung'un cevabında iyi puan vermediğinden değil. Sadece geniş bir bölge.
rolando2

2
Bu aynı zamanda, çok özel bir soru için, genellikle benden bazı tavsiyeler içeren bir konu: stats.stackexchange.com/questions/17068/… Ben de aşağıda düşüncelerimi vereceğim.
Fomite

Tamam, sanırım AIC'yi bir kriter olarak kullanacağım. Tam model en düşük AIC'ye sahiptir. Ayrıca AIC'ler birbirinden oldukça farklıdır.
Thomas

Yanıtlar:


10

Bu muhtemelen iyi bir şey değildir. Önce tek tek ortak değişkenlere bakmak ve daha sonra önemli olanlarla bir model oluşturmak, otomatik bir arama prosedürüne mantıklıdır. Bu yaklaşım sezgisel olsa da, bu prosedürden yapılan çıkarımlar geçerli değildir (örneğin, gerçek p-değerleri yazılım tarafından bildirilenlerden farklıdır). Sorun, başlangıçtaki ortak değişkenlerin boyutu büyüdükçe büyütülür. Bunu yine de yaparsanız (ve ne yazık ki birçok insan yaparsa), ortaya çıkan modeli ciddiye alamazsınız. Bunun yerine, test etmek için tamamen yeni bir çalışma yapmalı, bağımsız bir örnek toplamalı ve önceki modele uymalısınız. Bununla birlikte, bu çok fazla kaynak gerektirir ve dahası, süreç kusurlu olduğundan ve önceki model muhtemelen kötü bir model olduğundan,çok fazla kaynak harcamak .

Daha iyi bir yol, sizi ilgilendiren modelleri değerlendirmektir. Ardından, bu modeller arasında hüküm vermek için model esnekliğini (AIC gibi) cezalandıran bir bilgi kriteri kullanın. Lojistik regresyon için AIC:

AIC=2×ln(likelihood)+2k

burada , bu modele dahil edilen ortak değişkenlerin sayısıdır. Her şey eşit olmak üzere, AIC için en küçük değere sahip modeli istiyorsunuz. Ancak, her zaman bu kadar basit değildir; en düşük olsa da, birkaç model AIC için benzer değerlere sahip olduğunda dikkatli olun. k

AIC için tam formülü buraya ekliyorum, çünkü farklı yazılımlar farklı bilgiler veriyor. Bunu sadece olasılıktan hesaplamanız gerekebilir veya son AIC'yi veya aradaki herhangi bir şeyi alabilirsiniz.


6
AIC'yi seviyorum ancak önceden belirlenmiş 2'den fazla modelde AIC'nin hesaplanmasının çokluk sorunuyla sonuçlandığına dikkat edin.
Frank Harrell

1
@FrankHarrell güzel bir ipucu!
gung - Monica'yı eski haline getirin

9

Regresyon modelinde hangi değişkenlerin gittiğini seçmenin birçok yolu vardır , bazıları iyi, bazıları kötü ve bazıları korkunç. Birçoğu, çoğu değişken seçimi ilgilendiren Sander Grönland'ın yayınlarına göz atabilir.

Genel olarak konuşursak, birkaç ortak "kuralım" var:

  • Yazılım paketlerinde gelenler gibi otomatik algoritmalar muhtemelen kötü bir fikirdir.
  • Gung önerileri gibi model tanılama tekniklerini kullanmak, değişken seçim seçeneklerinizi değerlendirmenin iyi bir yoludur
  • Ayrıca, değişken seçim seçeneklerinizi bildirmek için konu uzmanlığı, literatür araştırmacıları, yönlendirilmiş döngüsel olmayan grafikler, vb.

3
Özellikle, 1 ve 3 numaralı noktalara dikkat edin. Model tanılama teknikleri, tip I hatasını koruyamaz.
Frank Harrell

3
Peki @Epigrad koy. Gerçi bir puan eklerdim. Sorununuz büyüdüğünde otomatik algoritmalar çok cazip hale gelir. Bazı durumlarda model seçimi yapmanın tek uygun yolu olabilir. İnsanlar şimdi 1000'lerin potansiyel değişkenleri ve milyonlarca gözlemi olan devasa veri kümelerini analiz ediyorlar. Konunun 1000 boyutlu sezgideki uzmanlığı nasıl? Ve bulacağınız şey, manuel olarak (yani bir analistle) yapsanız bile, muhtemelen değişkenleri seçmek için bazı kısa yol kuralları oluşturmalarıdır. Zor kısmı bu seçimleri gerçekten kodlamak.
olasılık

1
@probabilityislogic Buna katılıyorum. Dürüst olmak gerekirse, geleneksel tekniklerin çok büyük veri kümeleri için çok uygun olmadığını düşünüyorum, ancak daha sevimli tekniklere geri dönme eğilimi beni uyarıyor. Otomatik bir algoritma, 10 değişkenli bir veri kümesine ağırlık verebilirse, 10.000 ile bir veri kümesine ağırlık vermesinin bir nedeni yoktur. Bazı bölümlerdeki analizleri üzerinde büyük verilerin elde edilmesine yapılan mevcut vurgu beni biraz ürkütüyor.
Fomite

2
@probabilityislogic Derin ironik bir bükülmede, şimdi kendimi
1000'den fazla

2

"En iyi" modeli nasıl seçersiniz?

Bu soruyu cevaplamak için yeterli bilgi yok; y üzerinde nedensel etkiler elde etmek istiyorsanız , karıştırıcı hakkında bilinenleri yansıtan regresyonları uygulamanız gerekir. Tahmin yapmak istiyorsanız, AIC makul bir yaklaşım olacaktır.

Bu yaklaşımlar aynı değildir; bağlam, değişken seçme yöntemlerinin hangisinin daha çok / daha az uygun olacağını belirler.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.