Etkileşim terimine sahip LASSO - ana etkiler sıfıra indirilirse sorun olmaz mı?


25

LASSO regresyonu katsayıları sıfıra doğru küçültür, böylece etkin model seçimi sağlar. Verilerimde nominal ve sürekli değişkenler arasında anlamlı etkileşimler olduğuna inanıyorum. Bununla birlikte, zorunlu olarak, gerçek modelin 'sıfır etkisi olmayan' ana etkileridir. Tabii ki, gerçek model bilinmediğinden bunu bilmiyorum. Hedeflerim gerçek modeli bulmak ve sonucu mümkün olduğunca yakın tahmin etmektir.

Model kurma konusundaki klasik yaklaşımın, etkileşim dahil edilmeden önce her zaman temel bir etki içereceğini öğrendim . Dolayısıyla , aynı modelde eş değişkenler bir etkileşimi varsa , iki değişken ve ana etkisi olmayan bir model olamaz . Sonuç olarak işlev, bu kurala uyan model terimlerini (örn. İleri veya geri AIC'ye dayanarak) dikkatlice seçer.Z X ZXZX*ZstepR

LASSO farklı çalışıyor gibi görünüyor. Tüm parametreler cezalandırıldığından şüphesiz, ana etkinin sıfıra çekilmesi olur, oysa en iyi (örneğin çapraz onaylanmış) modelin etkileşimi sıfır değildir. Kullanılırken bu benim veriler için özellikle bulmak R'ın glmnetpaketi.

Yukarıda belirtilen ilk kurala dayanarak eleştiri aldım, yani çapraz onaylanmış son Kement modelim, sıfır olmayan etkileşimin karşılık gelen ana etki terimlerini içermiyor. Ancak bu kural bu bağlamda biraz garip görünüyor. Asıl soru, gerçek modeldeki parametrenin sıfır olup olmadığı sorusudur. Diyelim ki etkileşim ancak sıfır değil, o zaman LASSO bunu tanımlayacak ve doğru modeli bulacaktır. Aslında, bu modelden tahminler daha kesin olacak gibi görünüyor çünkü model etkili bir gürültü değişkeni olan gerçek sıfır temel etkiyi içermiyor.

Bu temele dayanan eleştiriyi reddedebilir miyim ya da bir şekilde LASSO'nun etkileşim döneminden önceki ana etkiyi içerdiğine dair önlem almalı mıyım?


2
Biri bunu reddetti. Neden ben
tomka

1
Hedef öngörünüz, çıkarım veya başka bir şey bir arada mı?
Andrew M

@AndrewM Doğru modeli mümkün olduğu kadar tahmin etmek, bağımlı değişkenlere neden olan değişkenleri yorumlamak ve öngörülen değerleri kullanmak istiyorum.
tomka

2
İlk hedefiniz için, çapraz onaylamanın model seçiminde tutarsız olduğunu unutmayın. Aslında, gösterilmiştir "gerçek" modeli eğiliminde olduğunu model öngörülü performans bizim tahmin maksimize birinin bir alt kümesi olmak söyledi. İkinci hedefiniz için, kementin güçlü önyargılı tahminler sağladığını unutmayın. Bu nedenle, birincil hedefinizin ne olduğuna karar vermeniz gerektiğini ve faydalı tavsiyeler sunulmadan önce açıklığa kavuşturmak için sorunuzu düzenlemeniz gerektiğini düşünüyorum.
Andrew M,

@AndrewM sorum şu: LASSO kullanırken ana etki modele dahil edilmeli mi? Bu soru her iki hedefim için ayrı ayrı cevaplanabilir. Sorunun daha fazla değişiklik yapması gerektiğini düşünmüyorum, ancak bu hedeflere dikkat çekmek önemlidir, bkz. Birinci paragrafta düzenleme.
tomka,

Yanıtlar:


10

Bu soruyu yanıtlamanın bir zorluğu, LASSO'yu, çoğu tahmin edici değişkenler arasında genellikle ihmal edilemez korelasyonlara sahip olan gerçek dünyadaki uygulamalarda “gerçek” bir model fikriyle uzlaştırmanın zor olmasıdır. Bu durumda, herhangi bir değişken seçim tekniğinde olduğu gibi, LASSO tarafından sıfır olmayan katsayılarla döndürülen belirli yordayıcılar, altta yatan popülasyondan örnekleme değişimlerine bağlı olacaktır. Bunu, aynı veri kümesinden çoklu önyükleme örneklerinde LASSO gerçekleştirerek ve döndürülen yordayıcı değişken kümelerini karşılaştırarak kontrol edebilirsiniz.

Ayrıca, @AndrewM'nin bir yorumunda belirtildiği gibi, LASSO tarafından sağlanan tahminlerin önyargısı, sonuçları "mümkün olduğunca yakından" tahmin edemeyeceğiniz anlamına gelir. Aksine, kaçınılmaz önyargılı sapma tradeoff özel bir seçimine dayanan sonuçları tahmin ediyorsunuz.

Böylece, bu zorluklar göz önüne alındığında, sadece bir eleştirmeni tatmin etmek için değil, etkileşime katkıda bulunan değişkenlerin temel etkilerinin büyüklüklerini kendiniz bilmek isteyeceğinizi umuyorum. R, glinternet'te ihtiyaç duyduğunuz tam olarak neye ihtiyacınız olduğunu düşündüğüm bir paket var:

Grup Kement ETKİLEŞİM-NET. Güçlü hiyerarşiyi sağlayan doğrusal çift etkileşimli modellere uyar: Bir etkileşim katsayısının sıfır olmadığı tahmin edilirse, iki ilişkili ana etkisinin sıfır olmayan tahmini katsayıları vardır. Rasgele sayı, sürekli değişken ve bunların kombinasyonlarını içeren kategorik değişkenleri (faktörleri) barındırır.

Alternatif olarak, çok fazla tahminciniz yoksa, bunun yerine ridge regresyonunu düşünebilirsiniz; bu, özel veri numaranızın değişkenlerine daha az bağımlı olabilecek tüm değişkenler için katsayıları döndürür.


9

Partiye geç kaldım, ama işte senin sorununla ilgili düşüncelerimden bazıları.

  1. Kement bilgilendirici olanı seçer. Kementi en az sayıda özellik ile en yüksek tahmine dayanan performansı elde etmek için bir yöntem olarak düşünelim. Bazı durumlarda, kementin ana etkileri değil etkileşimi seçmesi gayet iyi. Bu sadece ana etkilerin bilgilendirici olmadığı, ancak etkileşimlerin olduğu anlamına gelir.

  2. Sadece bildiklerini, ne bildiğini söylüyorsun. Bazı yöntemler kullandın ve bazı sonuçlar verdi. Tekrarlanabilirlik sağlayan şeffaf bir şekilde rapor edersiniz. Bence işin bitti. Sonuçlar nesneldir, ne bulduğunu buldunuz ve haklı çıkarmak için işiniz değil, neden başka bir şey bulamadınız.

  3. Tüm birimler keyfidir. Etkileşimler sadece birimlerdir. Diyelim ki renkleri inceliyorsunuz. Renkler, modelinize bir dalga uzunluğu veya bir günlük dalga uzunluğu veya 3 RGB değişkeni veya bir ton ve renk tonu etkileşimi olarak dahil edilebilir. Renklerin doğal olarak doğru veya yanlış gösterimi yoktur. Sorunuz için en anlamlı olanı seçeceksiniz. Etkileşimler, yalnızca keyfi olarak kullanabileceğiniz birimlerdir. Pencerenin alanı, sadece yüksekliğinin ve genişliğinin etkileşimidir, modelinize bir pencerenin yüksekliğini ve genişliğini dahil etmeli misiniz? Hız sadece kütle ve hız etkileşimidir. Ve Hız sadece zaman ve mesafenin etkileşimidir. Manhours sadece zamanın ve çalışan insan sayısının etkileşimidir. Matematiksel tedavi dozu * yaşı, yükseklik * genişliğiyle aynıdır. "Her zaman ana etkileri dahil etmek zorundasın" diyerek abartılıyor.

  4. Kement gerçek modeline yaklaşmaz, çıkarım için değildir ve seçilen değişkenler kararsızdır. Bilgilendirici yordayıcıları ilişkilendirdiyseniz, kement birini seçme ve diğerlerini 0'a itme eğilimindedir, bu nedenle modeliniz bilgilendirici değişkenlerin önemli bir bölümünü çıkarır. Ayrıca, yorumlarda da belirtildiği gibi, çapraz değerleme konusunda en iyi lambdayı bulursanız, kement gerçek bir modelden daha fazla değişken seçecektir. Diğer bir konu ise, Kement'ten yapılan seçimlerin kararsız olmasıdır. Öyleyse bir kementten bir popülasyondan farklı bir örnek üzerinde tekrar koşarsanız, seçilen farklı değişkenlerle biteceksiniz. Bu nedenle, hangi değişkenlerin seçileceğine çok fazla ağırlık koymayın. Ayrıca, betalar önyargılıdır ve bu nedenle klasik bir parametrik hipotez testi için kullanılamaz. Ancak, bunun etrafında yollar var (bir sonraki nokta)

  5. Kement ile çıkarım. Kement, yordayıcılar üzerinde bir çıkarım yapmak için kullanılabilir. En basit yol, onu önyüklemek ve her değişkenin kaç kez seçildiğini saymak, örnek sayısına bölün ve p-değerlerinizi elde etmektir. Bu durumda P, değişken tarafından kement tarafından seçilen bir olasılıktır. Hala önemli etkileşim etkileri ve önemsiz ana etkiler ile sonuçlanabilir, ancak bu bir problem değil, normal hipotez testlerinde de olabilir. Bu konunun büyük tedavisi Hastie ve ark. ark. ücretsiz kitap: Sparsity ile İstatistiksel Öğrenme, bölüm 6 http://web.stanford.edu/~hastie/StatLearnSparsity/Önyükleme, tüm değişkenler için bir stabilite yolu ile sonuçlanacak olan tüm lambda değerleri aralığı için gerçekleştirilebilir. Bu, ailenin bilge hatası için düzeltilmiş bir dizi önemli değişken bulmak için kararlılık seçim yaklaşımı ile genişletilebilir. http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2010.00740.x/abstract Kement ile çıkarım için yararlı olabilecek başka yöntemler de vardır. Yani adaptif kement ya da küstahsızlaştırılmış kement. R uygulamasıyla ilgili inceleme burada DOI: 10.1214 / 15-STS527 veya IMO Buhlmanm, van de Geer Kitabında daha erişilebilir bir açıklama: Yüksek Boyutlu Veri İstatistikleri http://www.springer.com/la/book/9783642201912

  6. Dikkat edilmesi gereken diğer kementle ilgili şeyler. Sırf ya da elastik ağ bildiğim kadarıyla kementden daha iyi performans gösteriyor. Değişkenler hakkında bir alan bilgisi varsa, kementin tek tek muamele etmek yerine bütün kestirici grubunu saklamak ya da atmak için kement zorlamak için grup kement veya seyrek grup kement kullanılabilir (örneğin, gen yolları, kukla kodlu faktör değişkeni). Mekansal veya düzenli veriler için kaynaşık kement kullanılabilir. Yukarıda belirtilen stabilite seçim kağıdına dahil edilen randomize kement, standart kementle aynı performansa sahip daha seyrek modeller üretme eğilimindedir.


1
gerçekten beğendim # 3
user4581

0

Özellikle az sayıda ana etkinin cezalandırılmamasını istediğim bir uygulamam var. Y = X.main beta + X.inter beta.inter + eps

a) fit.Y = OLS (X.main, Y). Tilde.Y = Y - j = 1 ... k için [[j] = OLS (X.main, X.inter [, j]) 'yı tahmin et (fit.Y, X.main) b). Tilde.X.inter [, j] = X.inter [, j] - tahmin et (fit.j, X.main) c) fit = Kement (tilde.X.inter, tilde.y). Ana etki üzerindeki katsayı, fit.Y - coef (fit) * fit [, 1: dim (X.inter) [2]] eşittir. Etkileşim üzerindeki katsayısı, coef (fit) değerine eşittir.

A ve b adımlarında, örnek bölme işlemine gerek yoktur. Bu benim için çalışıyor!

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.