Kementin özellik seçimi için kararsız olmasına ne neden olur?


12

Sıkıştırılmış algılama olarak, bir teoremi garantisi yoktur

argminc1subject to y=Xc
benzersiz seyrek çözelti sahip c (daha fazla ayrıntı için ek).

Kement için benzer bir teorem var mı? Böyle bir teorem varsa, sadece kementin stabilitesini garanti etmekle kalmaz, aynı zamanda kemente daha anlamlı bir yorum sağlar:

kement seyrek regresyon katsayısı vektörü ortaya çıkarabilir c yanıtı oluşturmak için kullanılan y ile y=Xc .

Bu soruyu sormamın iki nedeni var:

  1. Bence 'kement seyrek bir çözümü tercih ediyor' özellik seçimi için neden kement kullanmanın bir cevabı değildir, çünkü seçtiğimiz özelliklerin avantajının ne olduğunu bile anlayamayız.

  2. Kementin özellik seçimi için kararsız olduğu için kötü şöhretli olduğunu öğrendim. Pratikte, stabilitesini değerlendirmek için bootstrap örnekleri çalıştırmamız gerekir. Bu istikrarsızlığa neden olan en önemli neden nedir?


Ek:

Verilen XN×M=(x1,,xM) . c , bir Ω -zaman vektörüdür ( \ Omega \ leqslant MΩM ). İşlem y=Xc tepkisi oluşturur y . Eğer X düzenin MGP (boş alan özelliği) sahip Ω ve kovaryans matrisi X sıfıra bir özdeğer yakın olan, bir tek çözüm olacaktır

argminc1subject to y=Xc
tam olarak c verir y .

Ne bu teoremi de söyler de düzenin değil MGPnı sahiptir , çözmek için basitçe umutsuz .XΩargminc:y=Xcc1


DÜZENLE:

Bu harika cevapları aldıktan sonra, bu soruyu sorduğumda kafam karıştığını fark ettim.

Bu soru neden kafa karıştırıcı:

tasarım matrisinin kaç özelliğe (sütun) sahip olacağına karar vermemiz gereken bir araştırma makalesini okudum (yardımcı özellikler birincil özelliklerden oluşturulur). Tipik bir problemi olduğu için, nin kement çözeltisinin gerçek seyrek çözeltinin iyi bir yaklaşımı olabileceği şekilde iyi yapılandırılması beklenir.XN×Mn<pD

Akıl yürütme ekte bahsettiğim teoremden yapılmıştır : Eğer bir -sparse çözeltisi bulmayı hedeflersek , NSP siparişi sahip olması daha iyidir .ΩcXΩ

Genel bir matrisi için, ihlal edilirse,N×MN>CΩlnM

bir sabit ve sağlam kurtarma den ve mümkündürcDP

D , karşılık gelir , , karşılık gelirXPy

... ilişkisinden beklendiği gibi , tanımlayıcının seçimi daha kararsız hale gelir, yani farklı eğitim setleri için seçilen tanımlayıcı genellikle farklıdır ...N=CΩlnM

İkinci alıntı beni şaşırtan kısım. Eşitsizlik ihlal edildiğinde bana göre sadece çözüm belki benzersiz değil (bahsedilmiyor), aynı zamanda tanımlayıcı da daha kararsız hale gelecek.


2
Sadece bağlam için, Q'nuzun başında yazdığınız optimizasyon problemine "temel takip" adı verilir. Eşitlik yaklaşık eşitlik (bazı L2 hatalarına kadar) ile değiştirirseniz buna "temel takip denoising" denir. Temel arayışı kınama matematiksel olarak kemente eşdeğerdir. y=XcyXc
amip

Yararlı bir slayt kümesi (ancak kolay değil) burada bulundu: pages.iu.edu/~dajmcdon/research/talks/lasso.pdf ve ücretsiz öğle yemeği teoremi kullanıcıları yok.ece.utexas.edu/~cmcaram/pubs/ XuCaramanisMannor.NFL.pdf
Xavier Bourret Sicotte

Alıntı yaptığınız Teorem teklikle ilgilidir. Sorunuz kafa karıştırıcı çünkü benzersizlik her zaman istikrarla ilgili değil.
amip

2
Evet, OP'nin biraz karışık olduğuna ve sorunun net olmadığına inanıyorum, bu nedenle farklı cevaplar ... Benzersizlik tek bir veri noktası kümesi için, çapraz doğrulama veya önyükleme veya yeni veri noktaları için kararlılık geçerlidir
Xavier Bourret Sicotte

Yanıtlar:


8

GÜNCELLEME

McDonald's'ın risk tutarlılığı kavramının istikrarla ilgili olduğu cevabım hakkındaki geri bildirimi için bu ikinci gönderiye bakın .


1) Eşsizlik ve Kararlılık

Sorunuzu cevaplamak zor çünkü iki farklı konudan bahsediyor: teklik ve istikrar .

  • Sezgisel olarak, bir çözüm sabit bir veri kümesi verildiğinde benzersizdir , algoritma her zaman aynı sonuçları üretir. Martin'in cevap kapağı bu noktayı ayrıntılı olarak açıklıyor.

  • Diğer yandan stabilite , sezgisel olarak, eğitim verileri biraz değiştirildiğinde öngörünün çok fazla değişmediği bir şekilde anlaşılabilir.

Kement özelliği seçimi (genellikle) Çapraz Doğrulama yoluyla gerçekleştirildiğinden, Kement algoritması farklı veri katlarında gerçekleştirilir ve her seferinde farklı sonuçlar verebileceğinden, kararlılık sorunuz için geçerlidir.

Kararlılık ve Ücretsiz Öğle Yemeği Yok Teoremi

Dan tanımını kullanarak burada biz tanımlarsak Düzgün stabilite olarak:

Bir algoritma, aşağıdakiler geçerliyse, kayıp fonksiyonu ile ilgili olarak tekdüze bir kararlılığa sahiptir:βV

SZm  i{1,...,m},  sup|>V(fs,z)V(fS|i,z)|  β

Bir fonksiyonu olarak kabul terimi olarak yazılabilir . olarak azaldığında algoritmanın kararlı olduğunu söylüyoruz .mββmβm1m

Daha sonra "Hayır Free Lunch Teoremi, Xu ve Caramis (2012)" devletler olduğunu

Bir algoritma seyrek ise , fazlalık özellikleri tanımlaması anlamında, bu algoritma kararlı değildir (ve bağlı düzgün kararlılığı sıfıra gitmez). [...] Bir algoritma kararlıysa, seyrek olacağına dair bir umut yoktur. (sayfa 3 ve 4)β

Örneğin, düzenli regresyon sabittir ve gereksiz özellikleri tanımlamaz, düzenli regresyon (Kement) kararsızdır. L2L1

Sorunuzu cevaplama girişimi

Bence 'kement seyrek bir çözümü tercih ediyor' özellik seçimi için neden kement kullanmanın bir cevabı değil

  • Kabul etmiyorum, Lasso'nun özellik seçimi için kullanılmasının nedeni, seyrek bir çözüm vermesidir ve IRF özelliğine sahip olduğu gösterilebilir, yani Yedekli Özellikleri Tanımlar.

Bu istikrarsızlığa neden olan en önemli sebep nedir

  • Ücretsiz Öğle Yemeği Yok Teoremi

Daha ileri gitmek

Bu, Çapraz Doğrulama ve Kement kombinasyonunun işe yaramadığı anlamına gelmez ... aslında çeşitli koşullar altında çok iyi çalıştığı deneysel olarak (ve çok destekleyici teori ile) gösterilmiştir. Buradaki ana anahtar kelimeler tutarlılık , risk, oracle eşitsizlikleri vb.

McDonald ve Homrighausen (2013) tarafından sunulan aşağıdaki slaytlar ve bildiriler, Kement özelliği seçiminin iyi çalıştığı bazı koşulları açıklamaktadır: slaytlar ve kağıt: "Kement, kalıcılık ve çapraz doğrulama, McDonald ve Homrighausen (2013)" . Tibshirani'nin kendisi de sparcity , lineer regresyon hakkında çok sayıda not yayınladı

Tutarlılık için çeşitli koşullar ve bunların Kement üzerindeki etkisi aktif bir araştırma konusudur ve kesinlikle önemsiz bir soru değildir. Sizi ilgili bazı araştırma makalelerine yönlendirebilirim:


1
Kapsamlı cevabınız için teşekkür ederiz! Sağladığınız slayt seti sadece mükemmel!
meTchaikovsky

1
Hala bu istikrar tanımını işlemeye çalışıyorum. Benim çevirim, "bir çıkış çapraz doğrulamada hata / kayıp fonksiyonunun değişmesi, üst sınır değerine sahipse olarak azalan bir algoritmanın kararlı olduğu " "β1m Bunu doğru anladım. Kementin iyi çalışmasını sağlamak için neden arzu edilen bir özellik olduğunu merak ediyorum (veya daha doğrusu gerekli bir özellik olup olmadığını merak ediyorum).
Sextus Empiricus

1
Evet, m dışında veri noktalarının sayısıdır. olasılıklı bir sınır için sayfa 7'ye bakın: math.arizona.edu/~hzhang/math574m/Read/LOOtheory.pdf - mesele, veri kümesi boyutunu artırarak sağlanan ayrıcalık üzerinde herhangi bir sınırlama olmamasıdır, bu da algoritmanın atlayabileceği anlamına gelir belirli bir veri kümesine bağlı olarak hipotez işlevlerini çok uzağa taşımak. Bu nedenle, temel dağıtım ve korelasyon yapısı (bence) ile ilişkili alternatif şartlar önerilmektedir - ancak bunları daha net hale getirmek için yardıma ihtiyaç duyacaktır
Xavier Bourret Sicotte

Bir başka önemli düşünce, burada açıklandığı gibi tutarlılık konusudur : stat.ethz.ch/~nicolai/stability.pdf - istikrar ve tutarlılığın nasıl birbirine bağlı olduğu belirsizdir, ancak aktif araştırmanın konusu gibi görünmektedir, örneğin cbcl.mit.edu/publications /ps/mukherjee-AImemoOctNov.pdf
Xavier Bourret Sicotte

Güzel cevap! Bağlantıların ileride ölmesi durumunda bazı bağlantıları daha ayrıntılı açıklamalarla güncelleyebilir misiniz? (Senin için zaten bir tane yaptım.)
Richard Hardy

7

Gelen yorumlar Daniel J. McDonald

Indiana Üniversitesi Bloomington'da yardımcı doçent, Xavier Bourret Sicotte'nin orijinal yanıtında bahsedilen iki makalenin yazarı .

Açıklamanız genellikle doğrudur. İşaret edeceğim birkaç şey:

  1. Özgeçmiş ve kement hakkındaki yazı serisindeki amacımız, "Kement + Çapraz Doğrulama (CV)" ve "Kement + optimal " nınλ başarılı olduğunu kanıtlamaktı . Özellikle, tahminlerin de işe yaradığını göstermek istedik (modelsiz). Katsayıların doğru geri kazanımı (doğru seyrek olmayanları bulma) hakkında açıklama yapmak için, yapmak istemediğimiz seyrek bir gerçeği varsaymak gerekir.

  2. Algoritmik kararlılık risk tutarlılığını ifade eder (ilk önce Bousquet ve Elisseeff tarafından kanıtlanmıştır). Risk tutarlılığıyla,sıfıra gider; burada f, veya sınıf yanlış belirtilmişse, bir sınıf içindeki en iyi yordayıcıdır. Ancak bu sadece yeterli bir durumdur. Bağlantı kurduğunuz slaytlarda, “kement sabit olmadığı için işe yaramayacak olası bir kanıt tekniği” olarak bahsedilmektedir.||f^(X)f(X)||E[Y|X]

  3. Kararlılık sadece yeterlidir, ancak gerekli değildir. Bazı şartlar altında, “kement + CV” nin yanı sıra “kement + optimal ” nın da tahmin edildiğini gösterebildik . Alıntı yaptığınız makale mümkün olan en zayıf varsayımları ( izin veren slayt 16'dakiler) verir , ancak daha yaygın Lagrange sürümü yerine kısıtlanmış kement formunu kullanır. Başka bir makale ( http://www3.stat.sinica.edu.tw/statistica/J27N3/J27N34/J27N34.html ) Lagrange sürümünü kullanır. Ayrıca çok daha güçlü koşullar altında model seçiminin de işe yarayacağını gösterir. Diğer kişilerin daha yakın tarihli bir makalesi ( https://arxiv.org/abs/1605.02214 ) bu sonuçları iyileştirdiğini iddia ediyor (dikkatle okumadım).λp>n

  4. Genel olarak, kement (veya herhangi bir seçim algoritması) kararlı olmadığından, “algoritma + CV” nin doğru modeli seçeceğini göstermek için daha dikkatli analiz ve / veya güçlü varsayımlara ihtiyaç vardır. Gerekli koşulların farkında değilim, ancak bu genellikle çok ilginç olurdu. Sabit lambda için, kement tahmincisinin vektöründe yerel olarak Lipschitz olduğunu göstermek çok zor değil (Ryan Tibshirani'nin bir veya daha fazla makalesinin bunu yaptığını düşünüyorum). Bunun de geçerli olduğunu iddia , bu çok ilginç ve alakalı olacaktır.YXi

Yanıtınıza ekleyeceğim temel paket: “istikrar”, “risk tutarlılığı” veya “tahmin doğruluğu” anlamına geliyor, aynı zamanda daha fazla varsayım altında “parametre tahmin tutarlılığı” anlamına da gelebilir, ancak ücretsiz öğle yemeği teoremi “seçim” anlamına gelmez "stabil değil" Kement sabit lambda ile bile stabil değildir.Bu nedenle CV (herhangi bir tür) ile birleştirildiğinde kesinlikle kararsızdır.Ancak, stabilite eksikliğine rağmen, hala risk-tutarlı ve seçim ile veya olmadan tutarlı bir seçim Özgünlük burada önemsizdir.


5

Lasso, Ridge regresyonundan farklı olarak (bkz. Örneğin Hoerl ve Kennard, 1970; Hastie ve ark., 2009) tipik olarak sahip olmasına rağmen her zaman benzersiz bir çözümü yoktur. Modeldeki parametre sayısına, değişkenlerin sürekli veya ayrık olup olmamasına ve tasarım matrisinizin sırasına bağlıdır. Benzersizlik koşulları Tibshirani'de (2013) bulunabilir.

Referanslar:

Hastie, T., Tibshirani, R. ve Friedman, J. (2009). İstatistiksel öğrenmenin öğeleri . İstatistik Springer serisi. Springer, New York, 11. baskı, 2. baskı.

Hoerl, AE ve Kennard, RW (1970). Ridge regresyonu: Dikey olmayan problemler için önyargılı tahmin. Technometrics , 12 (1), 55-67.

Tibshirani, RJ (2013). Kement sorunu ve tekliği. Elektronik İstatistik Dergisi , 7, 1456-1490.


@ Teşekkür ederim! Sağladığınız referansların kısa bir özetini ekleyebilir misiniz?
meTchaikovsky

Hasite ve diğ. (2009) aralarında birçok konu olan Kement ve Ridge regresyonunu kapsayan bir kitaptır. Okunmaya değer ve Hastie'nin ana sayfasından indirilebilir: web.stanford.edu/~hastie/ElemStatLearn/download.html Hoerl & Kennard (1970) klasik bir Ridge regresyon referansıdır ve muhtemelen sorunuzla doğrudan alakalı değildir, diğer Ridge Regresyon hakkında okumak için. Tibshirani (2013), Kement'in ne zaman benzersiz bir çözüme (ve sonsuz miktarda çözüme sahip olduğu) dair bilgi içerir.
Phil

3

Eşsizliğe neden olan şey.

İçin vektörler ( bir işaret değişim olup olmadığını belirten bir artırmak veya azaltmak olacaktır ), bunlar affinely bağımlıdır zaman:sixisicic1

αisixi=0andαi=0

çözüm ve normunu değiştirmeyen sonsuz sayıda kombinasyonu .ci+γαiXcc1

Örneğin:

y=[11]=[210111][c1c2c3]=Xc

için olan çözeltiler:c1=1

[c1c2c3]=[010]+γ[121]

ile0γ12

Bu sıralama vektörü yerine kullanarakx2x2=0.5x1+0.5x3


Bu şartı olmayan durumlar

Tibshirani'nin (Phil'in cevabından) makalesinde, kementin benzersiz bir çözüme sahip olması için üç yeterli koşul tanımlanmıştır.

  1. Lineer bağımsız etkisiz boşluk zaman bir seviye zaman eşit sıfır ya da sütun sayısı (M) eşittir. Bu durumda, yukarıdaki gibi doğrusal kombinasyonlarınız yoktur.XX
  2. Tamamen bağımsız sütunları genel konumdayken.Xs

    Yani, hiçbir sütunu bir boyutlu düzlemdeki noktaları temsil etmez . Bir k-2 boyutlu düzlem, ile olarak herhangi bir noktası ile parametrelendirilebilir . Aynı düzlemde bir noktası ile koşullarına sahipkk2k1αisixiαi=1ksjxjαisixiαi=0

    Not sütun örnekte bu , ve tek bir hat üzerinde bulunmaktadır. İşaretler, örneğin matris, negatif olabilir, çünkü (Burada ancak biraz garip sadece var benzersiz bir çözüm de yok)x1x2x3[[21][11][01]]

  3. sütunları sürekli bir dağıtımdan olduğunda , genel konumda olmayan sütunlarına sahip olmanız pek olası değildir (olasılık neredeyse sıfırdır) .XX

    Buna zıt olarak, sütunları kategorik bir değişkense, bu olasılık zorunlu olarak neredeyse sıfır değildir . Sürekli bir değişkenin bazı sayı kümelerine eşit olma olasılığı (diğer bir deyişle, diğer vektörlerin afin açıklığına karşılık gelen düzlemler) 'neredeyse' sıfırdır. Ancak, bu ayrık değişkenler için geçerli değildir.X


+1 ama son tartışmalarda kararsız olanın, ilişkili özelliklerin varlığında çapraz doğrulama yoluyla özellik seçimi ile ilgili olduğunu düşünüyorum
Xavier Bourret Sicotte 11:18

@XavierBourretSicotte, benzersiz bir çözüm olsa bile, bu benzersiz çözümü bulmaya (sayısal olarak) sorun ekleyen ilişkili özelliklerden dolayı seçim sürecinin kararsız olabileceğini mi kastediyorsunuz? Biraz kafa karıştırıcı çünkü soru bir yandan istikrar ve diğer yandan benzersizlik hakkında.
Sextus Empiricus

Evet, demek istediğim, sayısal istikrarsızlık yüzünden değil, katlar arasında farklı değerleri için farklı çözümlere yol açan verilerin kıvrımlarındaki (CV sırasında) doğal farklılıklar nedeniyle . Bootstrapping sırasında daha da kötü olabilirλ
Xavier Bourret Sicotte

@XavierBourretSicotte Şu anda bunun (farklı ve eğitim setleri için farklı çözümler ) kararsız olması gerektiği konusunda net bir sezgisel resmim yok . Sanırım bunu bir cevap olarak gönderebilir ve açıklayabilirsiniz. λ
Sextus Empiricus

@Martijn Weterings Teşekkür ederiz! Hala üç sorum var: 1. Yakın bağımlılığı nasıl tespit edebilirim? in bağımsız olup olmadığını ( math.stackexchange.com/q/82189 )? 2. Uygulamada nasıl belirlemeliyim ? 3. 'genel konumu' ne anlama gelir ? {v1v0,v2v0,,vkv0}siX
meTchaikovsky
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.