Normları - ilgili özel olan nedir ?


13

Bir normu benzersizdir (en azından kısmen), çünkü dışbükey olmayan ve dışbükey arasındaki . Bir normu 'en seyrek' dışbükey normdur (değil mi?).L1p=1L1

I anlamak Öklid norm geometrisinde kökleri ve boyutlar aynı birimlere sahip olduğunda net bir yoruma sahiptir. Ama neden diğer gerçek sayılar üzerinde tercihli olarak kullanıldığını anlamıyorum : ? ? Neden tam sürekli aralığı hiperparametre olarak kullanmıyorsunuz?p=2p>1p=1.5p=π

Neyi kaçırıyorum?


1
"Tercihen kullanılır" özellikle hangi uygulamalarda? Matematik, istatistik ve fizikte normlar her yerde bulunur; bazı alt alanlarda bazı normlar diğerlerinden daha yaygındır, çünkü bunlar daha anlamlı veya daha basittir. Bu nedenle, bu sorunun cevapları muhtemelen çok sayıda ve çeşitlidir (çok çeşitli, gerçekten, kişisel olarak bunu cevaplanamayacağım). Bu nedenle bu bir "Topluluk Wiki" (CW) yazı yaptık; ancak belirli bir uygulamanız veya dar bir alanınız varsa, sorunuzu daha kesin hale getirerek CW durumunu kaldırmak mümkün olmalıdır.
whuber

Yanıtlar:


12

Daha matematiksel bir açıklama, p-normunda yakınsama yapan tüm serilerden oluşan boşluğunun sadece olan Hilbert olması ve başka bir değer olmamasıdır. Bu, bu alanın tamamlandığı ve bu alandaki normun bir iç ürün tarafından indüklenebileceği anlamına gelir ( tanıdık nokta ürününü düşünün ), bu yüzden çalışmak biraz daha hoştur.lpp=2Rn


4

İşte birkaç neden:

  1. İç ürünle çok özel bir şekilde ilgilidir: kendi çift ​​normu (yani "kendi-çift").
    İçinde tüm vektörleri düşünülürse, bu araçlar birim topu, herhangi bir vektör ile maksimum iç çarpım olan norm kendisi. Daha az süslü bir şekilde, özelliğini karşılar . Başka hiçbir normu bu şekilde davranmaz.2z2zx22=xxp

  2. Bu sahiptir çok elverişli pürüzsüz gradyan: Gerçekten bunu yenemezsin!

    x f(x)22=2 f(x)f(x)

2

Daha fazla neden olabilir, ancak aşağıdaki nedenlerden dolayı AFAIK p = 2 tercih edilir:

  • Benzerlik / farklılığın ölçüsü: p = 2 için Öklid normu, iki vektör arasındaki benzerlik veya farklılığın bir ölçüsünü verir; bu daha sonra veriler hakkında daha iyi bir fikir edinmek için kullanılabilir. Bununla ilgili daha ayrıntılı cevapları burada bulabilirsiniz .
  • Düzenleme: L2 normu, makine öğreniminde düzenlileştirme için kullanılır ve iki nedenden dolayı tercih edilir- 1) Kolayca ayırt edilebilir 2) L2 düzenlenmesi ile ağırlıklar, ağırlıklarla orantılı olarak azalma eğilimindedir. Bu nedenle L2 düzenlenmesi, daha küçük ağırlıklar ile karşılaştırıldığında daha büyük ağırlıkları daha fazla cezalandırır.

1

Doğrusal modeller altındaki kare hataları genellikle aşağıdakiler nedeniyle tercih edilir:

  • gürültü (ilişkisizlik) olarak kabul edilen bazı rastgele fenomenlere göre iyi çalışan ortogonallikle ilişki
  • dışbükey ve ayırt edilebilir, değilL1
  • türev doğrusal sistemlere dönüştükçe izlenebilir optimizasyon algoritmaları verir

L1 genellikle kombinasyon yöntemiyle karmaşık sıkı seyreklik (sıfır olmayan terimlerin sayısı) için uygun bir proxy veya dışbükey gevşeme olarak kabul edilir, örneğin bkz Minimal Doğrusal Denklem En Büyük gereğinden az Sistemlerinde -norm Çözüm de En Akıllı Çözüm1 . Bazıları " " dışbükeyliği pahasına daha fazla sağlamak için , kullanma eğilimindedir .p0<p<1

Ancak, sayım ölçümü sıfır olmayan ölçeklemeye duyarsızdır. Bir vektörü sıfır olmayan bir sabitle çarpın, sıfır olmayan terimlerin sayısı aynı kalacaktır. Bu nedenle, isimli mertebeden homojen iken Normlar veya yarı-normlar tüm mertebeden homojen. Bir şekilde, ' e olsa bile , bu tutarsızlık benim için bir boşluk gibi görünüyor.000p1p0p0

Bu nedenle, normlara uygun olarak, bazıları gibi (dışbükey olmayan) norm oranlarını göz önünde bulundurur, örneğin bir referanslara bakın : Düzenli ile Seyrek Kör Dekonvolüsyon .1/21/2

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.