Stokastik matrisler için seyreklik düzenleyici düzenlenme


10

L1Ab λ > 0 A b λ x

fA,b(x)=Axb22+λx1
λ>0Abλx

Ancak, değerini girişlerinin pozitif ve eşit olması , teriminin herhangi bir etkisi olmaz (çünkü fiat tarafından). Bu durumda ortaya çıkan nin seyrek olmasını teşvik etmek için çalışan benzer bir tipi düzenleyici var mı?x 1 L 1x1 = 1 L 1 xfA,bx1L1x1=1L1x


"O zaman L1 teriminin herhangi bir etkisi yoktur (çünkü ||x||1=1 fiat tarafından)" hakkında ayrıntı verebilir misiniz ?
Cam.Davidson.Pilon

2
@ Cam.Davidson.Pilon: xi0 ve ixi=1 , \ | x \ | _1 = 1 anlamına gelir x1=1. :)
kardinal

1
Justin: Bazı ayrıntılar yararlı bir cevapta daha iyi bir şans verebilir. Açıklamanızı okuduktan hemen sonra ortaya çıkan bazı sorular şunlardır: ( 1 ) Bütün bunlarda "stokastik matris" nerede? Sadece stokastik bir vektör içeren bir durumu tarif ediyor gibi görünüyorsunuz . Bunlar sadece stokastik matrisinizin tek tek satırları olabilir veya daha fazla ayrıntı bulunduğunda başka bir yapı belirginleşebilir. ( 2 ) Olasılıkların kendilerinin uygun bir bazda seyrek, belki de seyrek olmasını mı istiyorsunuz ? Birincisi neden? (Bu, ağırlıklı (seyrek) bir grafik üzerinde rastgele bir yürüyüş mü?)
kardinal

Neden o girdileri gerektiren vardır edilir pozitif ? Bunun yerine onların negatif olmayan olmasını talep etmeli misiniz ? Ayrıca, kısıtlamayı ortadan kaldırmak için yeniden parametrelendirmeyi düşündünüz mü (negatif olmayan demek istediğinizi varsayarak)? Başka bir deyişle, xi=exp(wi)xxi=exp(wi)jexp(wj)
jrennie

1
@jrennie: Bağlam göz önüne alındığında, pozitif Justin tarafından kesinlikle negatif olmayan anlamına geliyordu .
kardinal

Yanıtlar:


2

Seyrek çözeltiler oluşturmak için genel bir yöntem, bilinmeyen bir varyanstan önce sıfır ortalama normal ile MAP tahminidir.

p(xi|σi2)N(0,σi2)

Daha sonra bir moda sahip öncesine , arka mod genellikle seyrek olur. bir üstel karıştırma dağılımı alarak bu yaklaşımdan ortaya çıkmaktadır. L 1σi2L1

p(σi2|λ)Expo(λ22)

Sonra sen al

log[p(xi|λ)]=λ|xi|+log[λ2]

Bazı alternatifler genelleştirilmiş çift pareto, yarı cauchy, ters beta'dır. Bir anlamda bunlar kementten daha iyidir çünkü büyük değerleri küçültmezler. Aslında genelleştirilmiş çift pareto'nun üslerin bir karışımı olarak yazılabileceğinden eminim. Yani ve sonra önce bir gamma yerleştiriyoruz . Biz:λ=λip(λi|αβ)

p(xi|αβ)=α2β(1+|xi|β)(α+1)

İyi küresel parametrelerin seçilmesine yardımcı oldukları için normalleştirici sabitleri eklediğimi unutmayın. Şimdi aralık kısıtlamasını uygularsak, simpleks üzerinde yeniden normalleştirmemiz gerektiğinden daha karmaşık bir sorunumuz var.

Seyrekliği tetikleyen cezaların bir diğer genel özelliği, sıfırda ayırt edilememesidir. Genellikle bunun nedeni sol ve sağ sınırların zıt işaret olmasıdır.

Bu, Nicolas Polson ve James Scott'un TIRLS'yi geliştirmek için kullandıkları varyans ortalama karışım gösterimleri üzerindeki parlak çalışmalarına dayanıyor - en az karelerin çok büyük bir kayıp-ceza kombinasyonları sınıfına büyük bir uzantısı.

Alternatif olarak, simpleks üzerinde tanımlanan, ancak sıfırda marjinal dağılımlarda modlara sahip olan bir öncekini kullanabilirsiniz. Bir örnek, 0 ve 1 arasındaki tüm parametreleri içeren dirichlet dağılımıdır.

i=1n1(ai1)log(xi)(an1)log(1i=1n1xi)

Burada . Ancak cezanın tekilliği olduğundan sayısal olarak optimizasyon konusunda dikkatli olmanız gerekir. Daha sağlam bir tahmin süreci, posterior ortalamanın kullanılmasıdır. Tam bir seyrekliği kaybetmenize rağmen, sıfıra yakın birçok posterior yol alacaksınız. P0<ai<1


Ayrıntıları anlamak için tam donanımlı olmamamıza rağmen, bu çok ilginç bir fikir gibi görünüyor! Doğru , önceliğinin değişkenlerin 0 civarında bir üstel dağılım izlediği varsayımından gelmesi, bu nedenle, değişkenlerimiz için daha iyi çalışan 0 merkezli bir dağılıma ihtiyacımız var. Ama net bir kazanan yok, değil mi? "1'e karşılık gelen pozitif değişkenler" üzerinde dağılımlar var mı? Yardımın için teşekkürler! L1
Justin Solomon

Esneklik elde etmek için sıfırda bir mod ile bir dağıtım gerekir. Ve dirichlet dağılımı simpleks üzerindedir, bu tam olarak 1'e eşit olan dağılımlardır. Başka bir genel sınıf, lojistik-normal veya lojistik tlog[xixn]
olasılık

Ah, Dirichlet, ilgilendiğimiz simpleks üzerinde olması nedeniyle oldukça ilginç görünüyor! diğer ikisi üzerinde bir asimetri getirebilir , değil mi? İş arkadaşım ve ben yarın Dirichlet'in ima ettiği enerji işlevi üzerinde çalışacağız ve rapor vereceğiz! Şimdiye kadar hasta yardımınız için çok teşekkürler - bu her zamanki alanımızdan uzaktır, ancak bunu çözebilirsek, sonuçlar geometri işlemede önemli bir adım atabilir! [Ve elbette size gerekli krediyi vereceğiz!]xn
Justin Solomon

1

İki seçenek:

  1. için cezası kullanın . Bariz dezavantajı, bu konveks olmayan ve dolayısıyla optimize etmek zor olmasıdır.xL0x
  2. , ve yeni (doğal) parametre vektöründe bir ceza kullanın,. Bu, olmamaları için iyi bir neden olmadığı sürece olayların eşit derecede olası olmasını teşvik edecektir.ağırlıkxi=exp(wi)jexp(wj)w

Yeniden ölçümlemenizin seyrekliği nasıl teşvik ettiğini açıklayabilir misiniz? Daha ziyade tam tersini garanti ediyor gibi görünüyor .
kardinal

Bu olarak kıtlık teşvik farklı kayıtlar teşvik karşılık gelen aynı değere sahip. xwx
jrennie

Evet bunu anladım. Ancak, bu değerler sıfır olmayacaktır. OP'yi tam anlamıyla alırsak, bu yardımcı olmaz ve aslında (bir anlamda) "incinir". Ancak, OP'nin başka bir temele göre seyreklikle ilgilenmesi mümkündür, bu durumda bu onlardan biri olacaktır. :)
kardinal

Bu yüzden cevabımda iki seçenek sundum --- Sanırım içindeki sıfırları teşvik etmek için dışbükey olmayan ceza gerekli olacak . Belirttiğiniz gibi, Justin muhtemelen tam olarak söylediği anlamına gelmez. x
jrennie

Evet, maalesef kimlik temelinde uzlaşmaya ihtiyacımız var. Birçok Yani bu durumda biz istediğimiz 'eşit olarak mümkündür . - wi
Justin Solomon

1

Sorunun dayanağı sadece kısmen doğrudur. normunun kısıtlama altında sadece sabit olduğu doğru olsa da, kısıtlama optimizasyon probleminin çok seyrek bir çözümü olabilir.L1

Bununla birlikte, çözelti seçiminden etkilenmez , bu yüzden ya seyrek bir çözüm vardır ya da yoktur. Başka bir soru, çözümü nasıl bulacağınızdır. Doğrusal kısıtlamalar altında standart bir ikinci dereceden iyileştirici elbette kullanılabilir, ancak popüler koordinat iniş algoritmaları kullanıma hazır olarak kullanılamaz.λ

Bir öneri, farklı bir için sadece bir pozitiflik altında optimize etmek ve daha sonra çözümü norm 1 olacak şekilde normalleştirmek olabilir. kısıtlama.L 1λL1


0

Üç yöntem düşünebilirim.

  • Bayes yöntemi: sıfır ortalama öncesi dağılımın tanıtılması ve parametreleri ve hiper parametreleri tahmin etmek için tip II olasılığını kullanın.

  • Kullanım yerine regularization olarak. Bu farklılaşamaz. Yaklaşık olarak yüksek dereceli bir norm kullanabilirsiniz.

  • Kullanım .i=1logxi

Aslında, birinci ve üçüncü yöntemler aynıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.