Neden sadece


36

Sadece neden sadece ve normlarının düzenli hale merak ediyorum . Bunların neden daha iyi olduğuna dair kanıtlar var mı?L 2L1L2


13
(+1) Bu soruyu özel olarak araştırmadım, ancak benzer durumlarla ilgili deneyimler güzel bir niteliksel cevap olabileceğini gösteriyor: kökeninde ikinci olarak ayırt edilebilen tüm normlar yerel olarak birbirlerine eşdeğer olacak, bunun da norm standarttır. Diğer tüm normlar başlangıçta farklı olmayacak ve davranışlarını niteliksel olarak çoğaltacaktır. Bu gamı ​​kapsar. Aslında, bir ve normunun lineer bir kombinasyonu , başlangıçtaki herhangi bir normu ikinci dereceye yaklaştırır - ve kalıntıları dışlamadan regresyonda en önemli olan şey budur. L 1 L 1 L 2L2L1L1L2
whuber

3
Evet: bu esas olarak Taylor teoremidir.
whuber

4
dayanağı yanlıştır: diğer -norms, daha az yaygın olsa da kullanılır. p
Firebug

3
@Whuber'ın bahsettiği doğrusal kombinasyona genellikle elastik ağ denir .
Luca Citi

4
Ayrıca, Lp normları arasında, de çok fazla kilometre alır. L
user795305 27.0317

Yanıtlar:


28

@ Whuber adlı kullanıcının yorumlarına ek olarak (*).

Hastie ve arkadaşlarının Sparsity ile istatistiksel olarak öğrendiği kitap bunu tartışıyor. Ayrıca "norm" denilen şeyi kullanırlar (tırnak işareti çünkü katı matematiksel anlamda bir norm değildir (**)), bu sadece bir vektörün sıfır olmayan bileşenlerinin sayısını sayar.L0

Bu anlamda normu değişken seçimi için kullanılır, ancak birlikte ile normlarına değil dışbükey, çok zor optimize etmektir. Onlar (sanırım sıkıştırılmış geldiğine dair bir tartışma) normunun, yani, kementin, "normunun" en iyi dışbükeyleştirilmesi olduğunu ("en iyi alt küme seçiminin en yakın dışbükey gevşemesi") olduğunu . Bu kitap aynı zamanda diğer normlarının bazı kullanımlarına da atıfta bulunuyor . -normda olan birim top şuna benzerl q q < 1 L 1 L 0 L q l q q < 1L0lqq<1L1L0Lqlqq<1

görüntü tanımını buraya girin

(wikipedia'dan resim) iken, kementin neden değişken seçim sağlayabildiğine dair resimli bir açıklama

görüntü tanımını buraya girin

Bu görüntü yukarıda referans verilen kitaptandır. Kement durumunda (elmas olarak çizilmiş birim top), elipsoidal (kareler toplamı) konturların ilk önce köşelerden birindeki pırlantaya temas etmesinin çok daha muhtemel olduğunu görebilirsiniz. Dışbükey olmayan durumda (ilk birim top figürü), elipsoid ile birim top arasındaki ilk dokunuşun köşelerden birinde olması daha muhtemeldir, bu durumda değişken seçim, kementten daha da fazla vurgulanacaktır.

Google’da bu "dışbükey olmayan ceza , ile gibi dışbükey olmayan ilgili kement benzeri sorunlar yaşayan birçok kağıt . q < 1lqq<1

(*) Bütünlük için whuber yorumlarına buraya kopyaladım:

Bu soruyu özel olarak araştırmadım, ancak benzer durumlarla ilgili deneyim, güzel bir niteliksel cevap olabileceğini gösteriyor: başlangıçta ikinci olarak ayırt edilebilen tüm normlar, normunun standart olduğu yerel olarak eşdeğer olacaktır . Diğer tüm normlar başlangıçta farklı olmayacaktır ve davranışlarını niteliksel olarak yeniden üretir. Bu gamı ​​kapsar. Aslında, bir ve normunun doğrusal bir kombinasyonu, herhangi bir normu ikinci dereceye yaklaştırır - ve regresyonda en önemli olan şey budur.L 1 L 1 L 2L2L1L1L2

(**) - "norm", normların aksiyomlarından biri olan homojenliği yoktur. İçin Homojenlik araçları o.l0α0αx=αx


1
@kjetilbhalvorsen Derin cevabınız için teşekkürler. Yaygın olmayan üst yazıyı soru ve unvanla tutarlı olması için seçiyorum. Elbette tercih ettiğiniz şekilde yazabilirsiniz.
Ferdi

@kjetilbhalvorsen Whuber'un yorumuna biraz genişletebilir misiniz? normunun orijinden farklı olmadığı bilinmektedir ( düşünün ). Normların “yerel denkliği” ile ne kastedildiği açık değildir. En azını söylemek için referanslara ihtiyaç var. x | x |L2x|x|
Olivier

@Olivier normu, başlangıçta farklı olabilir, normu hakkında düşünüyorsunuz . 121
Firebug

@Firebug Hayır. normunu 1 boyutta düşünüyorum, ki normu ile aynı . Bir şey mi eksik? L 1L2L1
Olivier

2
@ Olivier Oh, aslında haklısın. Yanlış anladım, çünkü squared -norm aslında kullanılıyor ve her yerde farklılaşıyor. 2
Firebug

12

Bence sorunun cevabı, "daha iyi" şekilde nasıl tanımladığınıza bağlı. Doğru yorumluyorsam, neden bu normların diğer seçeneklerle karşılaştırıldığında bu kadar sık ​​göründüğünü bilmek istiyorsunuz. Bu durumda, cevap basitliktir. Düzenlemenin ardındaki sezgi, bazı vektörlerim olduğu ve bu vektörün bir anlamda "küçük" olmasını istiyorum. Bir vektörün boyutunu nasıl tarif edersiniz? Pekala, seçeneklerin var:

  • Kaç tane elemanı olduğunu mısınız ?(L0)
  • Tüm öğeleri ekler misiniz ?(L1)
  • "Ok" un ne kadar sürdüğünü musunuz?(L2)
  • En büyük öğenin boyutunu kullanıyor musunuz ?(L)

gibi alternatif normlar , ancak yukarıdakiler gibi arkadaşça, fiziksel yorumlara sahip değiller.L3

Bu listede normu, en küçük kareler gibi şeyler için güzel, kapalı formlu analitik çözümlere sahip olur. Sınırsız bilgi işlem gücüne sahip olmadan önce, başka türlü işlem yapamazsınız. Görselin "ok uzunluğunun" aynı zamanda diğer beden ölçülerinden daha insanlara daha çekici geldiğini tahmin ediyorum. Düzenleme için seçtiğiniz norm, optimal bir çözümle elde ettiğiniz kalıntı türlerini etkilese de, çoğu insanın a) bunun farkında olduğunu ya da b) problemlerini formüle ederken derinden düşünün. Bu noktada, çoğu insanın kullanmaya devam etmesini çünkü bu “herkesin yaptığı”.L 2L2L2

Bir benzetme üstel fonksiyon olacaktır, - bu, fizik, ekonomi, istatistik, makine öğrenmesi veya matematiksel olarak yönlendirilen herhangi bir alanda kelimenin tam anlamıyla her yerinde gösterilir. Sonsuza dek neden hayattaki her şeyin üsteller tarafından tarif edildiğini göründüğünü, insanların kolumuza bu kadar hile yapmadığını fark edene kadar merak ettim. Üsteller cebir ve hesap yapmak için çok kullanışlı özelliklere sahiptirler ve böylece gerçek dünyada bir şeyi modellemeye çalışırken herhangi bir matematikçinin araç kutusunda # 1 işlev görüyorlar. Çözülme süresi gibi şeylerin yüksek dereceli bir polinom tarafından tanımlandığı "daha iyi" olabilir, ancak bunlar cebir yapmak için göreceli olarak daha zordur ve günün sonunda asıl mesele şirketinizin para kazanmasıdır - üstel olan daha basit ve yeterince iyi.ex

Aksi halde, norm seçiminin çok öznel etkileri vardır ve neyi en uygun çözümde istediğinizi tanımlamak için sorunu belirten kişi size bağlıdır. Çözüm vektörünüzdeki tüm bileşenlerin büyüklük bakımından aynı olmasına veya en büyük bileşenin boyutunun mümkün olduğunca küçük olmasına daha fazla önem veriyor musunuz? Bu seçim, çözmekte olduğunuz belirli bir soruna bağlı olacaktır.


10

Çoğunlukla ve normlarını görmenin temel nedeni , mevcut uygulamaların çoğunu kapsamasıdır. Örneğin, normu , aynı zamanda bir doğrusal doğrusal bağlantı normu olan taxicab normu olarak da adlandırılan norm, mutlak değer normunu içerir . L 2 L 1L1L2L1

nA x - b 2 + Γ x 2 L 2L2 normları, en küçük karelere ek olarak uzayındaki Öklid mesafelerininn yanı sıra karmaşık değişken normudur . Ayrıca, Tikhonov normalizasyonu ve sırt regresyonu , yani uygulamalar genellikle normları olarak kabul .Axb2+Γx2L2

Vikipedi bunlar ve diğer normlar hakkında bilgi verir . Bahsetmeye değer . Genelleştirilmiş normu, normu aynı zamanda tek tip norm olarak da adlandırılır .L0L LpL

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.