Kademeli lojistik regresyon ve örnekleme


13

SPSS'deki bir veri kümesine aşamalı bir lojistik regresyon uyguluyorum. Prosedürde, modelimi yaklaşık olarak rastgele bir alt kümeye uyduruyorum. Toplam numunenin% 60'ı, bu da yaklaşık 330 vakadır.

İlginç bulduğum şey, verilerimi her yeniden örneklediğimde, son modele giren ve çıkan farklı değişkenler alıyorum. Son modelde her zaman birkaç belirleyici bulunur, ancak diğerleri örneğe bağlı olarak içeri ve dışarı açılır.

Sorum şu. Bununla başa çıkmanın en iyi yolu nedir? Öngörücü değişkenlerin yakınsamasını görmeyi umuyordum, ama durum böyle değil. Bazı modeller operasyonel bakış açısından çok daha sezgisel bir anlam ifade eder (ve karar vericilere açıklanması daha kolay olacaktır) ve diğerleri verileri biraz daha iyi uydurur.

Kısacası, değişkenler karıştığından, durumumla başa çıkmayı nasıl önerirsiniz?

Şimdiden çok teşekkürler.

Yanıtlar:


16

Adım adım bir prosedür kullanacaksanız, yeniden örneklemeyin. Bir kez ve herkes için rastgele bir alt örnek oluşturun. Analizinizi üzerinde yapın. Bekletilen verilere göre sonuçları doğrulayın. Muhtemelen "anlamlı" değişkenlerin çoğu anlamlı olmayacaktır.

( Düzenleme 12/2015: Yeniden örnekleme, adım adım prosedürü tekrarlama ve yeniden doğrulama ile gerçekten böyle basit bir yaklaşımın ötesine geçebilirsiniz: bu sizi çapraz onaylama biçimine götürecektir. Ancak böyle bir durumda daha karmaşık değişken yöntemler sırt regresyonu, Kement ve Elastik Ağ gibi seçim muhtemelen kademeli regresyona tercih edilir.)

Verilere biraz daha uygun olanlara değil, anlamlı olan değişkenlere odaklanın. 330 kayıt için birden fazla değişkeniniz varsa, ilk etapta aşırı uyum sağlama riskiniz yüksektir. Kademeli regresyon için oldukça şiddetli giriş ve çıkış kriterleri kullanmayı düşünün. testleri veya testleri için eşikler yerine AIC veya . F tCpFt

(Bağımsız değişkenlerin uygun yeniden ifadelerini tanımlamak için, olası etkileşimleri belirlediğinizi ve bağımlı değişkenin logit'i arasında gerçekten doğrusal bir ilişki olduğunu belirlediğinizi zaten analiz ve keşif yaptığınızı varsayıyorum. Değilse, bu gerekli ön çalışmayı yapın ve ancak daha sonra aşamalı regresyona dönün.)

Bu arada verdiğim gibi jenerik tavsiyeleri takip etme konusunda dikkatli olun :-). Yaklaşımınız, analizin amacına (tahmin? Ekstrapolasyon? Bilimsel anlayış? Karar verme?) Ve verilerin niteliğine, değişken sayısına vb.


2
Model yorumlamanın önemini vurgulamak için +1. Daha karmaşık çapraz doğrulama şemaları ile bilgisiz ML yaklaşımı (veya topluluk yöntemleri) hakkında hiçbir şey eklemeyeceğim, çünkü burada gerçekten önemli olan şeyleri zaten söylediğini hissediyorum: bir sonucu birbiri ardına karşılaştırarak), ve (2) her şey bir tahminci mi yoksa açıklayıcı bir model mi aradığımıza bağlıdır.
chl

Fikriniz için teşekkürler. Arama alanımı daraltmak için bazı ön tarama yaptım ve sadece en az değişkenle tahmin için en iyi modeli bulmak istiyorum. Modele sadece 7 tahminci atıyorum, anladığım kadarıyla iyi olmalı. Bir örnekle yapıştırma fikrini anlıyorum, ancak kapak tarafında, modelim temel olarak farklıydı ve sonuçların tamamen örneğe bağlı olduğunu gösteriyor, bu da beni duraklattı.
Btibert3

@ Btibert3 Doğru: sonuçlar verilerinizin rasgele alt kümeleri arasında değiştiğinde, bunu bağımsız değişkenlerin bağımsız değişkenin güçlü veya tutarlı yordayıcıları olmadığının kanıtı olarak alabilirsiniz.
whuber

12

Önemli bir soru "neden çok az değişkenli bir modelin mümkün olmasını istiyorsun?" Modelinizin operasyonel kullanımı için veri toplama maliyetini en aza indirmek için mümkün olduğunca az değişkene sahip olmak istiyorsanız, whuber ve mbq tarafından verilen cevaplar mükemmel bir başlangıçtır.

Eğer tahmini performans gerçekten önemliyse, muhtemelen herhangi bir özellik seçimi yapmamanız daha iyi olur ve bunun yerine düzenli lojistik regresyonu kullanırsınız (cf ridge regresyonu). Aslında, öngörücü performans birincil öneme sahip olsaydı, küçük bir veri kümesinin aşırı takılmasını önlemek için bir tür "kemer ve parantez" stratejisi olarak torbalanmış düzenli lojistik regresyonu kullanırdım. Millar regresyondaki alt küme seçimi üzerine kitabında ekte tavsiye veriyor ve çok fazla gözlem ve çok fazla özellik ile ilgili sorunlar için mükemmel bir tavsiye olarak buldum.

Verileri anlamak önemliyse, verileri anlamak için kullanılan modelin tahmin yapmak için kullanılanla aynı olmasına gerek yoktur. Bu durumda, verileri birçok kez yeniden örnekleyebilir ve hangi değişkenlerin bilgilendirici olduğunu bulmak için örnekler arasında seçilen değişkenlerin desenlerine bakarım (mbq'nin önerdiği gibi, özellik seçimi kararsızsa, tek bir örnek tam resmi vermez), ama yine de öngörüler için düzenli düzenli lojistik regresyon modeli topluluğunu kullanıyordum.


1
Düzenli lojistik regresyona işaretçi için +1. Yine de, "verileri birçok kez" yeniden örneklerken resmi olarak "kalıplara nasıl bakılacağı" belirsizdir. Bu, veri gözetleme gibi görünüyor ve bu nedenle hayal kırıklığına ve hataya yol açıyor gibi görünüyor.
whuber

5
Seçim kararsız olduğunda özellik seçimi her zaman hayal kırıklığı ve hata için bir reçete olacaktır. Sadece bir örnek kullanmak hayal kırıklığını azaltır, ancak baktığınız belirli örnekte neyin en iyi çalıştığına (aşırı bir tür olan) dayanarak, sorunun ilgili özellikleri hakkında çıkarımlar yapmanızı teşvik ettiğinden hata olasılığını artırır. uydurma. Yeniden örnekleme, özellik seçimindeki belirsizlik hakkında bir fikir verir - ki bu da aynı derecede önemlidir. Bu durumda, yeterli veri olmadığı için ilgili özellikler hakkında güçlü sonuçlar çıkarmamalıyız.
Dikran Marsupial

İyi bir nokta; İnsanlar sadece yeniden örnekleme demek istemezse nefret ediyorum.

10

Genel olarak, özellik seçiminin iki sorunu vardır:

  • size en küçük hatayı veren en küçük değişkenler kümesini aradığınız minimum optimal
  • tüm ilgili bir sorun ilgili tüm değişkenler için çalıştıkları zaman,

Öngörücü seçiminin yakınsaması, cehennemin zor olduğu ve bu nedenle lojistik regresyon, ağır hesaplamalar ve çok dikkatli bir tedaviden çok daha güçlü araçlar gerektiren tüm ilgili sorunun bir alanındadır.

Ama görünüşe göre ilk problemi yapıyorsun, bu yüzden endişelenmemelisin. Genelde ikinci kez cevap verebilirim, ancak yeniden örneklemeyi bırakmanız gerektiği iddiasına katılmıyorum - burada özellik seçimini dengelemek için bir yöntem olmayacak, ancak yine de bir çift özellik seçimi + eğitiminin performansını tahmin etmek için bir simülasyon olacak , bu yüzden size doğruluğunuza dair güven konusunda bir fikir verecektir.


+1 Çok fazla yeniden örneklemenin sadece kafa karıştırıcı ve yanıltıcı olacağından endişe ediyorum. Çapraz doğrulama veya doğrulama için bir tutma örneği yoluyla kontrollü bir şekilde yeniden örnekleme, sorunlu değildir.
whuber

6

JR Statist'te Meinshausen ve Buhlmann'ın Kararlılık Seçimi makalesine göz atabilirsiniz. Soc B (2010) 72 Bölüm 4 ve sonrasındaki tartışma. Veri noktalarınızı tekrar tekrar rasgele iki yarıya bölüp her bir yarıda özellikler aradığınızda ne olacağını düşünürler. Bir yarıda gördüğünüz şeyin, diğer yarıda eşleşenlerden bağımsız olduğunu varsayarak, hatalı seçilmiş değişkenlerin beklenen sayısı üzerindeki sınırları kanıtlayabilirsiniz.


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.