Elastik / sırt / kement analizi, sonra ne olacak?


19

Öngörü büzülmesi / seçimi için elastik ağ prosedürüyle gerçekten ilgileniyorum. Çok güçlü görünüyor.

Ancak bilimsel açıdan, katsayıları aldıktan sonra ne yapacağımı iyi bilmiyorum. Hangi soruyu cevaplıyorum? Bunlar sonucu en çok etkileyen değişkenlerdir ve bunlar validasyon sırasında en iyi varyans / yanlılık oranını veren katsayılardır?

Bu elbette klasik p değer / güven aralıkları yaklaşımına kıyasla çok tanımlayıcı / öngörücü bir yaklaşımdır. Çıkarımsal tahmin şimdi Tibshirani & Co. tarafından incelenmektedir, ancak hala deneyseldir.

Bazı insanlar, klasik çıkarımsal analiz yapmak için elastik ağ tarafından seçilen değişkenleri kullanırlar, ancak bu, tekniğin getirdiği varyanstaki sınırlamayı ortadan kaldıracaktır.

Diğer bir problem, elastik ağ için lambda ve alfa parametrelerinin çapraz validasyonla seçilmeleri nedeniyle rastgele değişkenliğe maruz kalmalarıdır. Yani her çalıştırdığınızda (örn.) Cv.glmnet () her zaman farklı katsayılara sahip biraz farklı bir belirteç alt kümesi seçersiniz.

Ben doğru lambda ve alfa rastgele değişkenler olarak düşünerek bu çözme hakkında ve bu parametrelerin bir dağıtım elde etmek için çapraz doğrulama adım n kez çalıştırın. Bu şekilde her tahminci için olayların sayısına ve her katsayı için sonuçların dağılımına sahip olurdum. Bu bana aralık istatistikleriyle (katsayıların sd'si gibi) daha genelleştirilebilir sonuçlar vermelidir. Ayrıca lambda ve alfa'nın bu şekilde asimptotik olarak bazı dağılıma yaklaşıp yaklaşmadığını görmek de ilginç olurdu, çünkü bu bazı çıkarım testinin yolunu açacaktır (ama ben bir istatistikçi değilim, bu yüzden yapmadıklarım hakkında konuşmamalıyım) tam olarak anlamıyorum).

Son olarak sorum şu: Çapraz doğrulama tabanlı alfa ve lambda içeren elastik bir ağdan yordayıcıları ve katsayıları aldıktan sonra, bu sonuçları nasıl ve nasıl sunmalısınız? Onları nasıl tartışmalısınız? ne öğrendik Hangi hipotez / genellemeyle çelişiyoruz?


Bence bu uygun şekilde cevap vermek için aşırı geniş / açık değil. Bazı durumlarda ifadelerinizi belirsiz buluyorum (örneğin, ne demek istiyorsun ", ancak bu, tekniğin getirdiği varyans sınırlamasını ortadan kaldıracaktır. ) Ve diğer bazı durumlarda yanlış yönlendirdiğinizde (örneğin, her çalıştırdığınızda (örn.) cv.glmnet () her zaman farklı katsayılara sahip biraz farklı bir yordayıcı alt kümesi seçersiniz "- her seferinde durum böyle değildir ve CV gerçekleştiğinde genellikle felaket değildir.)
usεr11852 diyor Reinstate Monic

elastik ağın gördüğüm bir motivasyonu, burada daha ayrıntılı olarak (biraz farklı bir yöntemle) genişletilen değişken kümelemeyle (zou bölüm 2.3, hastie elastik net kağıt) ilişkilendirdi: ncbi.nlm.nih .gov / pmc / makaleler / PMC4011669
kullanıcı795305

Yanıtlar:


8

Bu yöntemler - kement ve elastik ağ - hem özellik seçimi hem de tahminin sorunlarından doğmuştur. Bu iki lens sayesinde bir açıklama bulunabileceğini düşünüyorum.

Matthew Gunn, cevabında bu iki hedefin farklı olduğunu ve genellikle farklı insanlar tarafından ele alındığını açıklıyor. Ancak, neyse ki bizim için, ilgilendiğimiz yöntemler her iki alanda da iyi performans gösterebilir.

Öznitelik Seçimi

İlk olarak, özellik seçimi hakkında konuşalım. İlk önce elastik ağı kement perspektifinden motive etmeliyiz. Yani, Hastie ve Zou'dan alıntı yapmak için , "İkili korelasyonların çok yüksek olduğu bir değişken grubu varsa, o zaman kement gruptan sadece bir değişken seçme eğilimindedir ve hangisinin seçildiğini umursamaz." Örneğin bu bir sorundur, çünkü kement kullanarak gerçek desteğin bir unsurunu bulamayacağımız anlamına gelir - sadece bir tanesi onunla oldukça ilişkili. (Makalede bunun henüz okumadığım LARS belgesinde kanıtlandığı belirtiliyor.) Korelasyon varlığında destek iyileşmesinin zorluğu Wainwright tarafından da belirtiliyor ,0.5Gerçek destek ve onun tamamlayıcısı arasında yüksek bir korelasyon olduğunda .

Şimdi, elastik ağdaki l2 cezası, katsayıları sadece kayıp ve ayırt edilemez katsayısına sahip olmak için ayırt edilemez olarak kabul edilen özellikleri teşvik etmektedir. Bunu tatmin eder. Bu nedenle, elastik ağ, bunu 'yanlışlıkla' ortadan kaldırma olasılığını gerçek destekte olan bir katsayı tahmini yapma olasılığımızın düşmesine neden olur. Yani, gerçek desteğin tahmini destek içinde yer alması daha olasıdır. Bu iyi! Bu, daha fazla yanlış keşif olduğu anlamına gelir, ancak bu çoğu insanın ödemek istediği bir fiyattır.(a,b)=argmina,b:c=|a|+|b|(a)2+(b)2|a|=|b|

Bir kenara, yüksek derecede korelasyonlu özelliklerin çok benzer katsayı tahminlerine sahip olma eğiliminde olacağına dikkat çekmeye değer, böylece tahmini destek içinde yanıtı benzer şekilde etkileyen özellik gruplarını tespit edebiliriz.

tahmin

Şimdi, tahmine geçiyoruz. Matthew Gunn'ın işaret ettiği gibi, çapraz doğrulama yoluyla ayar parametrelerini seçmek, minimum tahmin hatasına sahip bir model seçmek için bir amaç oluşturur. Kement tarafından seçilen herhangi bir model elastik ağ tarafından seçilebildiğinden ( alarak ), elastik ağın kementten daha iyi tahmin eden bir model bulabilmesi mantıklıdır.α=1

Lederer, Yu ve Gaynanova , özelliklerin hiçbir varsayımı altında, kement ve elastik ağın aynı miktarda sınırlandırılmış l2 tahmin hatasına sahip olabileceğini gösteriyor. Sınırlarının sıkı olduğu kesin olarak doğru değildir, ancak bu dikkat edilmesi ilginç olabilir, çünkü oracle eşitsizlikleri , tahmin edicilerin tahmin performansını ölçmek için istatistiksel literatürde standart bir yol gibi görünmektedir - belki de dağılımlar çok karmaşık olduğundan! Ayrıca Lederer (1) (2) ' nin ilişkili özelliklerin varlığında kement tahminleri hakkında bazı makaleleri olduğunu belirtmek gerekir .

özet

Özetle, ilgili sorunlar tahmini destek ve tahminde bulunan gerçek destektir. Destek kurtarma için, kementin gerçek destek ve tamamlayıcısı arasındaki düşük korelasyon varsayımları altında modelde olmak için doğru özellikleri seçtiğini (Wainwright aracılığıyla) titizlikle kanıtlanmış garantiler vardır. Bununla birlikte, korelasyon varlığında, gerçek desteğin özelliklerini seçtiği her şey arasında olacak şekilde seçme olasılığı daha yüksek olması için elastik ağa geri dönebiliriz. (Burada ayarlama parametrelerini dikkatle seçmemiz gerektiğini unutmayın.) Ve ayarlama parametresini çapraz doğrulama yoluyla seçtiğimizde tahmin etmek için, elastik ağın kementten daha iyi performans göstermesi sezgisel bir anlam ifade eder - özellikle korelasyon varlığında. .

Tahmin ve bazı formaliteleri bir kenara bırakarak ne öğrendik? Gerçek desteği öğrendik.

Güvenilirlik aralığı

Kement için geçerli çıkarım konusunda son 2 yılda çok şey değiştiğini belirtmek gerekir. Özellikle, Lee, Sun, Sun ve Taylor'un çalışması , seçilen model üzerinde şartlı olarak kement katsayıları için kesin bir çıkarım sağlar. (Gerçek katsayılar için kementteki çıkarım sonuçları OP'nin görev zamanında ortaya çıkmıştır ve bağlantılı makalede iyi özetlenmiştir.)


Düzenli ortak değişken tahminlerinin muhtemelen bir çalışmanın tekrarını bulabileceğimiz tahminlere daha benzer olduğunu varsaymak doğru olur mu? Yani, normalleştirme örnek dışı tahmin hatasını en aza indirmeye yardımcı olduğu için, örneklemden örnek tahmininden farkı en aza indirmeye yardımcı olabilir mi?
Bakaburg

1
@Bakaburg, evet, bunu söylemek mantıklı. Düzenleme, daha düşük varyanslı tahmin ediciler oluşturur.
user795305

9

Elastikiyet, sırt veya kement ile yaptığınız şey, normalleştirme parametrelerini seçmek için çapraz doğrulamayı kullanarak, tahmini optimize etmek için bazı doğrusal biçimlere uymaktır . Neden bu belirli düzenleme parametreleri? Çünkü en iyi yeni veriler üzerinde tahmin için çalışırlar. Büzülme katsayısı tahminleri sıfıra doğru yönelir, yanlılık getirir (Ridge veya Lasso'da olduğu gibi) aşırı sığmayı azaltabilir ve varyansı daraltabilir . Fikir, ceza parametrelerinizin yeni veriler üzerindeki tahmini optimize etmek için doğru dengeyi bulmasıdır.

Veri oluşturma sürecinin:

yi=f(xi,β)+ϵi

Let parametreler bizim tahmin olarak ve let gözlem için tahmini olmakβ^βy^jj

Sonuçlarınızı nasıl sunmalısınız? Altta yatan araştırma sorunuzun ne olduğuna bağlıdır! Geri çekilip hangi soruyu cevaplamaya çalıştığınızı derinlemesine düşünmek isteyebilirsiniz . Kitleniz neyi önemsiyor? Ne yapmaya çalışıyorsun?

  • Tahmin?
  • Tahmin edilen katsayılar?
  • Değişken seçimi?

İki tür araştırma sorusu arasında ayrım yapmak önemlidir:

  1. Tahminleri ağırlıklı olarak önemsediğiniz, yaniy^j
  2. parametre tahminlerini ağırlıklı olarak önemsediğiniz sorular .β^

Raf makinesi dışında öğrenme teknikleri eski tahmin problemleri için son derece güçlü olabilir . Yine de tanıdığınız gibi göründüğünüz gibi, raf makinesi dışı öğrenme teknikleri standart , parametre tahmini sorunları için son derece sorunlu olabilir :y^β^

  • Yüksek boyutlu bir ortamda, birçok farklı parametre ayarı size aynı tahminleri verecektir . parametre sayısı gözlem sayısına göre yüksekse , herhangi bir parametreyi iyi tahmin edemeyebilirsiniz.y^kn
  • Farklı kıvrımlar üzerinde eğitilmiş algoritmalar, önemli ölçüde farklı parametre tahminlerine sahip olabilir.
  • Makine öğrenimindeki vurgu, sürekli olarak nedensel etkileri tahmin etmeyen tahmin üzerinedir. (Bu, tipik olarak ana sorunun sürekli olarak nedensel etkileri tahmin ettiği ekonometri ile zıttır). Bazı fonksiyonel formları tahmin eden tahmin, nedenselliği tahmin etmekten farklıdır. Polis seviyeleri, suç seviyelerinin iyi bir öngörücüsü olabilir ve bu polisin suça neden olduğu anlamına gelmez.

Bildiğiniz gibi, bazı makine öğrenimi parametrelendirmesinin neden işe yaradığını yorumlama konusunda sorunlar olabilir . Kitleniz bir tahmin kara kutusuyla rahat mı? Ya da tahmin sorunuzun merkezinde nasıl çalışır?

Kement ve Sırt: bunları kullanmanın klasik nedenleri

  • Klasik makine öğrenimi, tahmin problemleri, ana endişenizin olduğu durumlar için elastik ağ kullanabilirsiniz . Bir anlamda düzenlileştirme, daha fazla yordayıcı eklemenize izin verir, ancak yine de aşırı sığmayı kontrol altında tutar.y^

  • Aşırı sığmayı önlemek için düzenlileştirmeyi kullanabilirsiniz. Örneğin. polinom eğrisi uydurma bağlamında sırt regresyonu oldukça iyi çalışabilir.

  • @Benjamin'in cevabında belirttiği gibi, Kement de değişken seçim için kullanılabilir. Belirli düzen koşulları altında, Kement sürekli olarak uygun modeli seçecektir: alakasız katsayılar sıfıra ayarlanacaktır.

ve sırasıyla Lasso ve Ridge cezalar, önyargı katsayısı sıfıra doğru tahmin ediyor. Önyargı büyükse, katsayı tahminlerini yorumlamaya çalışıyorsanız bu ciddi bir sorun olabilir. Standart hata tahminleri almak için, önyükleme gibi bir şey yapmanız gerekir; basit kapalı form çözümleri (farkında olduğum) yoktur. Sırt, kement ve elastik ağ, normal OLS regresyonuna benzerliklere sahiptir, ancak düzenlileştirme ve değişken seçim, çıkarımı oldukça farklı kılar ...L1L2

Geri dönmeye devam ettiğim şey, anlamaya çalıştığınız şeyin biraz daha bağlamı olmadan sırt regresyonu, kement veya elastik ağın sonuçlarını yorumlamanın oldukça zor olduğudur!


Sendhil Mullainathan bu yazının bazı bölümlerini motive eden Ocak 2017 AFA toplantısında makine öğrenimi üzerine bir konuşma yaptı.


3
Bu tür bir düşünce bence kusurlu. Temeldeki fenomenin bir insan tarafından anlaşılacak kadar basit olduğu varsayımına dayanır. Yüksek boyutlu modeller çoğu zaman insanlar tarafından anlaşılamayacak kadar karmaşıktır, ancak büyük ölçekli yapay zeka için çok uygundurlar. Gerçekte en iyi yordayıcı, kavrayıp kavrayamasanız da fenomenin en iyi yorumudur.
Çağdaş Özgenç

2
@CagdasOzgenc Bence bu, bazı işlevlerin korkunç derecede karmaşık, insanlar için tanımlaması zor, ancak makineler tarafından anlaşılabilir ve öğrenilebilir olduğu (örn. Satranç tahtası değerlendirmesi) geçerli bir nokta. Bu durumlarda, makinenin öğrendiklerini yorumlamaya bile çalışmamak, ellerini atmak daha iyi olabilir. Öte yandan, nedensel bir etki, uyuşturucu denemeleri, seçim etkileri vb. Varlığında tahmin etmeye çalıştığınız ortalama bir etkinlik olduğu gibi, ilaç denemeleri gibi durumlar vardır ... Bunlar bir anlamda farklı problemler ve ihtiyaçlar farklı teknikler.
Matthew Gunn

1
@Benjamin Altta yatan bir problem OP'nin en doğrudan istediği şey, elastik ağdan sıfır katsayılara doğru önyargılı bir anlaşılabilir yorumlamanın olmayabilir. 10.000 öngörücünüz ve 5.000 gözleminiz olduğunu düşünün. Ortak olarak, katsayılarınız tahminde mükemmel bir iş yapabilir, ancak ayrı ayrı, her katsayı zayıf tahmin edilen önemsiz olabilir. Geri adım atmaya ve temel araştırma sorusunun ne olduğunu sormaya değer olduğunu düşünüyorum. Amaç nedir? Tahminler buluyor mu veya bir katsayı mı tahmin ediyor? Ya da belki başka bir şey? y^
Matthew Gunn
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.