Büzülme yöntemleri hangi sorunu çözer?


61

Tatil mevsimi bana İstatistiksel Öğrenme Elemanları ile ateşin yanında kıvrılma fırsatı verdi . (Sık) bir ekonometri perspektifinden gelince, sırt regresyonu, kement ve en düşük açılı regresyon (LAR) gibi büzülme yöntemlerinin kullanımını kavramakta güçlük çekiyorum. Tipik olarak, parametrenin kendilerini tahmin etmesini ve yansızlık veya en azından tutarlılığı elde etmekle ilgilenirim. Büzülme yöntemleri bunu yapmaz.

Bana göre bu yöntemler, istatistikçi regresyon fonksiyonunun tahmincilere çok duyarlı olduğu konusunda endişelendiğinde kullanılıyor, tahmincilerin gerçekte olduğundan daha önemli (katsayıların büyüklüğü ile ölçülüyor) olduğunu düşünüyor. Başka bir deyişle, overfitting.

Ancak, OLS tipik olarak tarafsız ve tutarlı tahminler sağlar. (Dipnot) Seçim süreci hesaba katılmadığından, çok küçük olan tahminleri vermeme, çok küçük olan güven aralıkları yerine getirmeme sorununu her zaman gördüm. ESL bu son noktadan bahseder).

Tarafsız / tutarlı katsayı tahminleri, sonucun tarafsız / tutarlı tahminlerine yol açar. Büzülme yöntemleri tahminleri OLS'nin tahmin edeceği sonuçlara yaklaştırarak görünüşte masada bilgi bırakır.

Yinelemek için, büzülme yöntemlerinin ne tür bir problem çözmeye çalıştığını görmüyorum. Bir şey mi eksik?

Dipnot: Katsayıların belirlenmesi için tam sütun sıra şartına ihtiyacımız var. Dışsallık / sıfır koşullu ortalama varsayım varsayımları ve doğrusal koşullu beklenti varsayımı, katsayılara verebileceğimiz yorumu belirler, ancak bu varsayımlar doğru olmasa bile, bir şeyin tarafsız veya tutarlı bir tahminini alırız.


1
Burada ilgili birkaç soru var. Bu bir tane: stats.stackexchange.com/questions/10478/…
kardinal

2
Parametre tutarlılığını sağlamak için büzülme parametresi seçiminde basit ve oldukça zayıf koşullar bulunduğunu unutmayın. Bu, ünlü Knight & Fu (2000) kağıdında ve sırt regresyonunun ve kementin çok ötesindeki kılıflarda ayrıntılı olarak açıklanmıştır . Model seçimi tutarlılığı da son birkaç yılda popüler bir konu haline geldi.
kardinal

@ cardinal, göstericilerin kement için tutarlılık sonuçlarını modellemesine teşekkürler; Bir göz atacağım. Tabii ki, bu sonuçlar OLS için de bulunabilir. Sonuçlar, her iki prosedürün de aynı yere gittiğini göstermektedir. Öyleyse neden OLS üzerinde kement kullandığımızı hala anlamıyorum.
Charlie,

1
Model tutarlılığı, parametre tahminlerinin asimptotik tutarlılığından farklı bir kavramdır. Bu farkın (aşina olduğun) farkında mısın?
kardinal

@ cardinal, Model tutarlılığı ile doğru tahmin edicilerin dahil olduğunu kastediyorsunuzdur. Bunu, OLS kullanarak seçim sürecinde AIC kriterini kullanarak alabiliriz. Sanırım sınırda, kementin "yanlış" katsayılara sahip doğru modeli seçtiğini mi ima ediyorsunuz?
Charlie,

Yanıtlar:


47

Daha derin bir cevap istediğinden şüpheleniyorum ve başkasının bunu yapmasına izin vermek zorunda kalacağım, ama size sırt regresyonuyla ilgili bazı düşünceleri gevşek, kavramsal bir bakış açısıyla verebilirim.

OLS regresyonu tarafsız olan parametre tahminlerini verir (yani, eğer bu tür numuneler toplanır ve parametreler süresiz olarak tahmin edilirse, parametre tahminlerinin örnekleme dağılımı gerçek değere odaklanır). Ayrıca, örnekleme dağılımı, olası tüm tarafsız tahminlerin en düşük varyansına sahip olacaktır (bu, ortalama olarak, bir OLS parametre tahmininin, diğer bazı tarafsız tahmin prosedürlerinden bir tahminden daha gerçek değere daha yakın olacağı anlamına gelir). Bu eski haber (ve özür dilerim, bunu iyi bildiğini biliyorum), ancak varyansın düşük olması, korkunç derecede düşük olduğu anlamına gelmez. Bazı koşullar altında, örnekleme dağılımının varyansı, OLS tahmincisini esasen değersiz hale getirecek kadar büyük olabilir. (Bunun olabileceği bir durum, çok dereceli bir çok kutupluluk olduğu zamandır.)

Böyle bir durumda ne yapmalı? Eh, daha düşük bir varyansa sahip farklı bir tahminci bulunabilir (her ne kadar açıkça belirtilmiş olsa da, yukarıda belirtilenler göz önüne alındığında). Yani, daha düşük sapma için tarafsızlıktan bahsediyoruz. Örneğin, muhtemelen gerçek değerin biraz altında olsa da, gerçek değere büyük ölçüde yakın olması muhtemel parametre tahminlerini alıyoruz. Bu değişimin değip değmeyeceği, analistin bu durumla karşılaştığında yapması gereken bir karardır. Her halükarda, sırt regresyonu tam da böyle bir tekniktir. Aşağıdaki (tamamen imal edilmiş) şekil bu fikirleri açıklamaya yöneliktir.

görüntü tanımını buraya girin

Bu , sırt regresyonuna kısa, basit, kavramsal bir giriş sağlar. Kement ve LAR hakkında daha az şey biliyorum ama aynı fikirlerin uygulanabileceğine inanıyorum. Kement ve en düşük açılı regresyon hakkında daha fazla bilgiyi burada bulabilirsiniz , "basit açıklama ..." bağlantısı özellikle yararlıdır. Bu , büzülme yöntemleri hakkında çok daha fazla bilgi sağlar.

Umarım bu biraz değerlidir.


12
Bu, bazı güzel kavramsal ipuçları verir. İkinci paragrafta tarafsızlığa çok fazla odaklanılıyor, ancak önemli bir uyarı eksik. (A) Doğrusal model "doğru" olmadığı sürece (ve ne zaman?) Ve (b) tüm ilgili öngörücüler modele dahil edildiğinde, genel olarak katsayı tahminleri hala önyargılı olacaktır.
kardinal

5
Önyargı / varyans tradeoffı konusundaki sınırlı anlayışım, bir açıklama arayan birinin (belki de orijinal posterdeki gibi), varyans daha büyük olsa bile tarafsızlığı tercih edeceği, ancak bir tahminde bulunan bir kişinin, önyargılı olsa bile küçük varyanslı bir şeyi tercih edebileceğidir. tanıtıldı.
Wayne,

2
@Wayne: Gerçekten, bu (bunlardan biri) maddenin kaygısıdır. ESL'deki bakış açısının çoğu tahmin perspektifinden geliyor ve bu da analizlerinin büyük bir bölümünü renklendiriyor. Özellikle gözlemsel bir ortamda tek bir katsayı üzerinde çıkarım yapılması çok kaygan bir konudur. Katsayısı tahminlerinin gerçekten "tarafsız" olduğunu iddia etmek biraz ciddi ikna edici olurdu.
kardinal

1
Bir süre sonra, aşırı derecede hacimli yorumlarımı biraz daha genişletmeye çalışabilirim.
kardinal

@gung, işte ilginizi çekebilecek ilgili bir Meta konu.
Richard Hardy

16

Bir tahmin edicinin hatası (kare) yanlılık ve varyans bileşenlerinin bir birleşimidir . Bununla birlikte, pratikte belirli bir sonlu veri örneğine bir model yerleştirmek istiyoruz ve bazı örnek popülasyonu üzerindeki ortalama sıfır hata yerine, gerçekte sahip olduğumuz veri örneğinde değerlendirilen tahmin edicinin toplam hatasını en aza indirmek istiyoruz. (bizde olmayan). Bu nedenle, yanlılığı ve varyansı azaltmak istiyoruz, hatayı en aza indirmek için, bu genellikle varyans bileşeninde daha büyük bir düşüş yapmak için tarafsızlığı feda etmek anlamına geliyor. Bu, özellikle varyansın yüksek olabileceği küçük veri kümeleriyle ilgilenirken geçerlidir.

Odaktaki farkın, bir prosedürün özellikleriyle ilgilenip ilgilenmediğine veya belirli bir örnek üzerinde en iyi sonuçları almaya bağlı olduğunu düşünüyorum. Sık görüşmeler tipik olarak birinciyi bu çerçevede ele almayı daha kolay buluyor; Bayesanlar çoğunlukla ikincisine odaklanır.


9

Uygulanabilecek birkaç cevap olduğunu tahmin ediyorum:

  • Ridge regresyonu, yordayıcılar matrisi tam sütun sırası olmadığında tanımlama sağlayabilir.
  • Kement ve LAR, yordayıcı sayısı, gözlem sayısından (tekil olmayan sayının başka bir değişkeni) büyük olduğunda kullanılabilir.
  • Kement ve LAR otomatik değişken seçim algoritmalarıdır.

Sırt regresyonu ile ilgili ilk noktanın gerçekten bir özellik olduğundan emin değilim; Tanımlamamayla başa çıkmak için modelimi değiştirmeyi tercih ederim. Modelleme değişikliği olmasa bile, OLS bu durumda sonucun benzersiz (ve tarafsız / tutarlı) tahminlerini sunar.

İkinci noktanın ne kadar yararlı olabileceğini görebiliyordum, ancak ileriye dönük seçim de gözlem sayısını aşan parametrelerin sayısı ve tarafsız / tutarlı tahminler verirken de işe yarayabilir.

Son noktada, örnek olarak ileri / geri seçimi kolayca otomatikleştirilir.

Bu yüzden hala gerçek avantajları göremiyorum.


6
Bazı açıklamalar: ( 1 ) OLS tahminleri, yordayıcılar matrisi tam olmadığında benzersiz değildir. ( 2 ) Tutarlılık asimptotik bir kavramdır ve bir dizi tahminci gerektirir . Bu Düşündüğünüz dizinin türünü tanımlamak için gerekeceğini ve ilgilendiğiniz büyümenin tipi yapar meselesi. ( 3 ) Birden fazla tutarlılık türü vardır ve aralarındaki farkları anlamak açıklayıcı olabilir. Zhao & Yu (2006) kağıt güzel bir tartışma vardır. ( 4 ) Tarafsızlık abartılmıştır.
kardinal

1
( 5 ) Hoerl & Kennard'daki (1970) sırt regresyonunun asıl motivasyonu, “yumuşak” bir sıralama eksikliği şekli olan koşulsuz tasarım matrislerini kullanmaktı.
kardinal,

1
@ cardinal, re. (1): Üzgünüm, katsayıların tahminlerinden ziyade sonucun tahminlerini kastediyordum.
Charlie

1
Ah tamam. Bu sorudaki dipnotunuzla daha iyi kareler.
kardinal,

İşte yukarıdaki yorumda olduğu gibi Zhao ve Yu'nun (2006) halka açık versiyonuna bir link.
Richard Hardy,

4

İşte Biyoistatistikten temel bir uygulamalı örnek

Yumurtalık kanseri varlığı ile bir dizi gen arasındaki olası ilişkileri araştırdığımı varsayalım.

Bağımlı değişkenim bir ikilidir (sıfır veya 1 olarak kodlanmıştır) Bağımsız değişkenlerim proteomik bir veritabanındaki verileri kodlar.

Birçok genetik araştırmada yaygın olduğu gibi, verilerim çok uzun olduğundan daha geniş. 216 farklı gözlemim var ancak 4000 veya daha fazla tahmin edici var.

Doğrusal regresyon doğru değil (sistem belirlenenden daha korkunç.)

özellik seçimi teknikleri gerçekten mümkün değil. 4.000+ farklı bağımsız değişkenle tüm olası alt küme teknikleri tamamen söz konusu değildir ve sıralı özellik seçimi bile şüphelidir.

En iyi seçenek muhtemelen elastik bir ağ ile lojistik regresyon kullanmaktır.

Özellik seçimi yapmak istiyorum (hangi bağımsız değişkenlerin önemli olduğunu belirleyin), bu nedenle ridge regresyonu gerçekten uygun değildir.

Önemli etkiye sahip 216'dan fazla bağımsız değişken olması tamamen olasıdır, bu yüzden muhtemelen bir kement kullanmamalıyım (Kement gözlemlerinizden daha fazla tahmin edemez).

Elastik ağı giriniz ...


1
Bahsettiğiniz durumlarla ilgilenen bir ders kitabı verebilir misiniz?
Qbik

0

Doğrusal regresyon büzülme yöntemlerinin ele alabileceği diğer bir problem, gözlemsel veriler üzerinde yüksek boyutlu vaka kontrol çalışmalarında ortalama bir tedavi etkisinin (ATE) düşük bir varyans (muhtemelen yansız) tahminini elde etmektir.

Spesifik olarak, 1) çok sayıda değişken olduğu durumlarda (tam eşleşme için değişkenlerin seçilmesini zorlaştırır), 2) eğilim skoru eşleşmesi, muamele ve kontrol numunelerinde dengesizliği ortadan kaldırmakta başarısız olur ve 3) çoklu bağlantı mevcut adaptif kement (Zou, 2006) gibi asimptotik olarak tarafsız tahminler elde eden birkaç tekniktir. Nedensel çıkarım için kement regresyonunun kullanılmasını ve katsayı tahminlerinde güven aralıklarının oluşturulmasını tartışan birkaç makale bulunmaktadır (aşağıdaki yazıya bakınız: Değişken seçimi için Kement kullandıktan sonra çıkarım ).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.