Yumuşak eşikleme ile Kement cezalandırması


11

Şimdiye kadar yüksek boyutlu veri kümeleriyle cezalandırılmış çok değişkenli analizde anladığımı özetlemeye çalışıyorum ve hala yumuşak eşikleme ile Kement (veya ) doğru bir tanımını elde mücadele ediyorum .L1

Daha kesin olarak, genomik veriler ( tek nükleotid polimorfizmleri dahil olmak üzere 2 bloklu veri yapısını analiz etmek için seyrek PLS regresyonunu kullandım ( burada nüklel aletin frekansını {0,1,2} aralığında sayısal bir değişken olarak kabul ediyoruz) ve sürekli fenotipler (kişilik özellikleri veya serebral asimetriyi ölçen skorlar, sürekli değişkenler olarak da ele alınır). Fikir, bireyler arası fenotipik varyasyonları açıklamak için en etkili prediktörleri (burada DNA dizisindeki genetik varyasyonlar) izole etmekti.

Başlangıçta cezalandırılmış PLS regresyonu ve düzenli CCA içeren mixOmics R paketini (eski adıyla integrOmics) kullandım . R koduna baktığımızda, öngörücülerdeki "sparsity" değerinin, Bileşen, (algoritma üzerinde en yüksek yüklere (mutlak değerde) sahip en üst değişkenleri seçilerek oluşturulduğunu gördük. yinelemeli ve bileşenlerine değişken yüklerini hesaplama , her yinelemede yordayıcı bloğunu söndürme , bkz. Seyrek PLS: Genel Bakış için Omics verilerini Entegre ederken Değişken Seçim ). Aksine, S. Keleş'in birlikte yazdığı spls paketi (bkz.kbenben=1,...,kkEşzamanlı Boyut Küçültme ve Değişken Seçimi için seyrek Kısmi En Küçük Kareler Regresyonu , bu yazarlar tarafından üstlenilen yaklaşımın daha resmi bir açıklaması için) değişken ceza için kanalizasyon uygular .L1

Yumuşak eşiklemeye dayalı yinelemeli özellik seçimi ile düzenlenmesi arasında katı bir "bijection" olup olmadığı açık değildir . Benim sorum şu: İkisi arasında herhangi bir matematiksel bağlantı var mı?L1

Referanslar

  1. Chun, H. ve Kele ,s, S. (2010), Eşzamanlı boyut küçültme ve değişken seçim için seyrek kısmi en küçük kareler . Kraliyet İstatistik Kurumu Dergisi: Seri B , 72 , 3-25.
  2. Le Cao, K.-A., Rossouw, D., Robert-Granie, C. ve Besse, P. (2008), Omics Verilerini Entegre ederken Değişken Seçim için Seyrek PLS . Genetik ve Moleküler Biyolojide İstatistiksel Uygulamalar , 7 , Madde 35.

Yanıtlar:


2

Söyleyeceğim regresyon için geçerli, ancak PLS için de geçerli olmalı. Bu yüzden bir bijection değil çünkü kısıtlanmış olanı ne kadar zorladığınıza bağlı olarak , çeşitli 'cevaplar' olacakken , ikinci çözüm sadece p olası cevapları kabul ediyor ( p , değişken sayısıdır) <-> orada daha çözeltilerdir l 1 'kesme' formülasyon daha formülasyon.l1ppl1


@kwak Tamam, LARS algoritması, değişken önemdeki basit eşik değerden çok daha karmaşık görünmektedir, ancak nokta, ceza parametresi ile modelde tutulması istenen değişken sayısı arasında açık bir ilişki görmememdir; Bana öyle geliyor ki, tam olarak sabit bir değişken sayısı sağlayacak bir ceza parametresi bulamayız.
chl

@chl:> S-PLS demek istediniz? (tartıştığınız her iki algoritmadan farklı olan LARS yazdınız). Gerçekten de, ceza parametresi ile bileşen sayısı arasında tekdüze bir ilişki vardır, ancak doğrusal bir ilişki değildir ve bu ilişki duruma göre değişir (veri kümesine / soruna bağlıdır).
user603

@kwak Yanıltıcı olmadıkça L1 cezası LARS kullanılarak elde edilebilir. İkinci noktanız aslında aklımda olan şey; bu konuda herhangi bir referansınız var mı?
chl

@chl:> * L1-ceza yanıltıcı olmadıkça LARS kullanarak elde edilebilir * bunu bilmiyordum (ve bir tür şüphe). Bir referans verebilir misiniz? Teşekkürler. ikinci sorunuz için: kement Hui Zou, Trevor Hastie ve Robert Tibshirani'nin “özgürlük dereceleri” ne bakınız Kaynak: Ann. Devletçi. Cilt 35, Sayı 5 (2007), 2173-2192. (birçok söylenmemiş sürüm vardır).
user603

1
@kwak Tibshirani'nin www-stat.stanford.edu/~tibs/lasso.html web sitesine ve larsR paketine göz atın ; diğer yöntemler arasında koordinat inişi (bkz. JSS 2010 33 (1), bit.ly/bDNUFo ) ve Python scikit.learnpaketi her iki yaklaşımı da içerir, bit.ly/bfhnZz .
chl

6

L1L1

L1XX1

X


(+1) Bunun için teşekkürler, özellikle Friedman'ın makalesi.
chl
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.