Gecikme sırasını mı tercih ediyorsunuz?


9

Formun boyuna verilerine sahip olduğumu varsayalım Y=(Y1,,YJ)N(μ,Σ)(Birden fazla gözlemim var, bu sadece tek bir form). İle ilgili kısıtlamalarla ilgileniyorumΣ. KısıtlanmamışΣ almaya eşdeğerdir

Yj=αj+=1j1ϕjYj+εj
ile εjN(0,σj).

Tahmin edilmesi gerektiği için bu genellikle yapılmaz O(J2)kovaryans parametreleri. Bir model "gecikme-k"alırsak

Yj=αj+=1kϕjYj+εj,
yani sadece önceki k tahmin etmek için terimler Yj Tarihten

Gerçekten yapmak istediğim şey, bazılarını sıfırlamak için bir tür büzülme fikri kullanmaktır. ϕjLASSO gibi. Ama mesele şu ki, gecikmeli modelleri tercih etmek için kullandığım yöntemi istiyorum.k bazı k; Daha yüksek sıradaki gecikmeleri, düşük sıradaki gecikmelerden daha fazla cezalandırmak istiyorum. Bence bu, öngörücülerin yüksek derecede korelasyonlu olması nedeniyle özellikle yapmak istediğimiz bir şeydir.

Ek bir sorun, eğer ϕ35 küçüldü 0 Ben de isterim ki ϕ36 küçüldü 0yani koşullu dağılımların hepsinde aynı gecikme kullanılır.

Bu konuda spekülasyon yapabilirdim, ama tekerleği yeniden icat etmek istemiyorum. Bu tür bir sorunu çözmek için tasarlanmış herhangi bir LASSO tekniği var mı? Gecikme emirlerinin aşamalı olarak dahil edilmesi gibi, tamamen başka bir şey yapmam daha iyi olur mu? Model alanım küçük olduğundan,L0 sanırım bu sorunun cezası?

Yanıtlar:


2

Doğrulama işlemini k = 0'dan maksimum değere kadar tekrar tekrar yapabilir ve performansı k'ye göre çizebilirsiniz. Model daha önce görmediği veriler üzerinde test edildiğinden, karmaşık modellerin daha iyi performans göstereceğine dair bir garanti yoktur ve model aşırı uyum nedeniyle çok karmaşık hale gelirse performansta bir düşüş görmeniz gerekir. Şahsen, bunun keyfi bir ceza faktörüne sahip olmaktan daha güvenli ve haklı olduğunu düşünüyorum, ancak kilometreniz değişebilir.

Ayrıca, Kement'in soruyu nasıl cevapladığını gerçekten takip etmiyorum. Çok kısıtlayıcı görünüyor, katsayıların sırasını tamamen zorluyor. Oysa asıl soru, bir çözümü olan bazı veriler için sonuçlanabilir.ϕlj l ile kesinlikle azalmıyor.


Sorunuza LaTeX eklemek için, ifadeyi dolar işaretleri ($) arasına alın.
Patrick Coulombe

1
(1) Sadece modelden, katsayı sıralamasının arzu edildiği açık değildir, ancak büyük ölçüde mantıklıdır. Tekrarlanan ölçümlerde, klinik çalışmada, örneğin, küçük bir bozulmanın beklemesinin önemli bir nedeni yoktur.Yj2 stokastik olarak etkilemek Yj küçük bir rahatsızlıktan daha fazlası Yj1. Düzenli LASSO, bunu daha iyi bir şekilde kullanır, bu doğru olmayabilir.
guy

(2) Genel olarak, bu CV stratejisini en azından kısmen çok dogmatik olduğu için kullanmayacağım. Tamamen atmak yerine, gecikmeyi makul bir şekilde küçülterek daha iyi tahminler alabilirim.
guy

Nir, sipariş edilen LASSO hakkında faydalı bir yorum. Cevabımı biraz daha kapsamlı olacak şekilde düzenledim. Teşekkürler!
Sean Easter

Teşekkürler Sean. Adam, çok dogmatik olduğunu sanmıyorum. Taş taşı değil, değişmesine izin veriyorsunuz. Seçtiği k, aşırı sığmanın başlangıcında olacaktır. Ayrıca a priori bilgi varsayımına kesinlikle katılmıyorum. Makul görünen ve bunu bilen bir şey tamamen farklı. İtiraf etmeliyim ki, geleneksel istatistiklerde hiç anlamadığım çapraz doğrulamaya karşı bir direnç var gibi görünüyor. Herhangi bir gün varsayımları eklemeye kıyasla örnek verilere ilişkin tahminsel etkinliği seçerdim.
Nir Friedman

2

Sipariş LASSO aradığınız edilecek ne görünüyor: Bu regularize regresyon katsayılarını hesaplarβ1...j standart LASSO'da olduğu gibi, ancak ek kısıtlamaya tabidir. |β1||β2|...|βj|.

Bu, yüksek dereceli gecikmeler için katsayıları sıfırlamanın ikinci hedefini başarır, ancak daha düşük bir gecikme modelini tercih etmenin tek kısıtlamasından daha kısıtlayıcıdır. Diğerlerinin de belirttiği gibi, bu haklı çıkarmak çok zor olabilen ağır bir kısıtlamadır.

Uyarılardan vazgeçilen makale, yöntemin hem gerçek hem de simüle edilmiş zaman serisi verileri üzerindeki sonuçlarını sunar ve katsayıları bulmak için algoritmaları detaylandırır. Sonuç bir R paketinden bahsediyor, ancak makale oldukça yeni ve "sipariş edilmiş LASSO" için CRAN araması boş çıkıyor, bu yüzden paketin hala geliştirilmekte olduğundan şüpheleniyorum.

Bu makalede ayrıca, iki düzenleme parametresinin "neredeyse monotonluğu teşvik ettiği" genelleştirilmiş bir yaklaşım sunulmaktadır. (Bkz. Sf. 6.) Başka bir deyişle, rahat bir sıralamaya izin vermek için parametreleri ayarlayabilmelidir. Ne yazık ki, gevşemiş yöntemin ne örnekleri ne de karşılaştırmaları sağlanmıştır. Ancak yazarlar, bu değişikliğin uygulanmasının bir algoritmayı diğeriyle değiştirmek için basit bir mesele olduğunu yazıyor, bu yüzden önümüzdeki R paketinin bir parçası olacağını umuyor.


Teşekkürler, bu son zamanlarda ortaya çıkan bir fikir. Aslında 9 ay önce soruyu sorduğumda sorunu bir arkadaşımla tartışırken aynı fikri buldum, ama asla derinlemesine araştırmadım! Sadece fikrin o roman olmadığını ya da başka birinin zaten bu konuda bir makale yazdığını varsaydım.
Guy

Oldukça hoş geldiniz! Kendim için bu kadar yeni olmasına şaşırdım.
Sean Easter

1

İç içe LASSO cezası ( pdf ) kullanılabilir, ancak bunun için R paketi yoktur.


1
Şu anda, bu bir cevaptan çok bir yorumdur. Belki iç içe LASSO cezasını vs tartışarak biraz genişletebilir misiniz?
gung - Monica'yı eski

0

Bunu bir öncül olarak yazdığınızı biliyorum, ancak sipariş edilen LASSO'yu, bunun gerekli olan şey olduğundan kesinlikle emin olmadan kullanmam, çünkü sipariş edilen LASSO'nun varsayımları zaman serisi tahmini için doğrudan uygun değildir. Bir karşı örnek olarak, örneğin ölçüm ile hedef arasında on zaman adımının gecikme süresine sahip olduğunuzu düşünün. Açıkça görüldüğü gibi, sıralı LASSO kısıtlamaları ilk dokuz parametreye saçma atmadan bu tür etkileri kaldıramaz.

Buna karşılık, normal LASSO'ya bağlı kalmayı tercih ediyorum ve önceki tüm gözlemleri dahil ediyorum - özellikle model alanınızın küçük olduğunu yazdınız ve LASSO için koordinat iniş optimizasyon rutinleri ( burada açıklandığı gibi ) büyük veri kümeleri için de verimli bir şekilde çalışıyor. Ardından, normalleştirme gücü parametresinin yolunu hesaplayınλ ve hangi parametrelerin büyük olanlardan λ için λ=0. Özellikle daha önce dahil olanlar önemlidir.

Son olarak, uygun bir kriter seçmeli ve parametreyi optimize etmelisiniz λçapraz doğrulama, standart tek boyutlu minimizasyon veya her neyse. Kriter, örneğin "tahmin hatası + dahil edilen değişkenlerin sayısı" (-AIC ölçütü benzeri) gibi bir şey olabilir.


Eğer inanmak için güçlü bir önsel nedenim olmasaydı, katsayıların sıralamasıyla ilgili kısıtlamalarla ilgilenmiyorum . Muhtemel olduğundan şüphelendiğim modeller için sezgisel olarak sipariş edilen LASSO daha verimli olmalıdır. Diğer 9'un 0 olması ile bir gecikme-10 katsayısına sahip olmak benim temel ortamımda bir anlam ifade etmiyor . Bu, meslektaşlarımın üzerinde çalıştığı bir problemdir (gecikmelerde temelli küçülme), ancak Bayesuan fikirlerini kullandılar ve bu yüzden (Bayesci olmayan) bir LASSO'yu düşünmeyeceklerdi.
Guy

Tamam, ne yaptığını biliyor gibisin. Ancak, sipariş edilen LASSO'nun "bir kez sıfır - her zaman sıfır" ifadenizden daha güçlü bir şekilde kısıtlandığını unutmayın. Alternatif olarak, parametrelerin çarpımsal olarak girdiği bir modeli de düşünebilirsiniz. Daha sonra, göreceli önem bir katsayı sıfır oluncaya kadar büyüyebilir veya azalabilir.
davidhigh
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.