Özetle KKT grafiksel olarak


13

Amaç

KKT anlayışının doğru olup olmadığını onaylayın. KKT hakkında daha fazla açıklama ve teyit isteyin.

Arka fon

SVM makalelerinde her zaman maviden çıkan KKT koşullarını, özellikle tamamlayıcı olanı anlamaya çalışmak. Soyut formül listesine ihtiyacım yok ama somut, sezgisel ve grafiksel bir açıklamaya ihtiyacım var.

Soru

Maliyet fonksiyonunu f (X) en aza indiren P, kısıtlamanın (g (P)> = 0) içindeyse çözüm budur. KKT'nin bu durumda uygun olmadığı anlaşılıyor.

resim açıklamasını buraya girin

Görünüşe göre KKT, P kısıtlamanın içinde değilse, X çözümünün aşağıdaki resimde tatmin etmesi gerektiğini söylüyor. KKT her şey hakkında mı yoksa diğer önemli yönleri mi özlüyorum?

resim açıklamasını buraya girin

Diğer açıklamalar

  1. KKT'nin uygulanması için f (x) dışbükey olmalı mı?
  2. KKT'nin uygulanması için g (x) doğrusal olmalı mı?
  3. Λ * g (X) = 0'da λ gerekli mi? Neden g (X) = 0 veya g (Xi) = 0 yeterli değil?

Referanslar


Güncelleme 1

Cevaplar için teşekkürler ama hala anlamak için mücadele ediyorum. Sadece burada gerekliliğe odaklanın:

Matthew Gunn'ın optimal olmayan nokta (yeşil daire) ve KKT hakkındaki cevabındaki koşul (2) orada tatmin edilmeyecek mi? Ve bu nokta Hessian'a Mark L. Stone'un cevabındaki gibi bakarak tanımlanacaktır.

Sanırım başka bir durum eyer noktaları, ama aynı şey geçerli mi?

resim açıklamasını buraya girin

resim açıklamasını buraya girin user23658


1
Bu soru matematik sitesinde daha fazla dikkat çekebilir; KKT koşulları mutlaka "istatistiksel" değildir. İstatistikçiler, ilginç istatistiksel problemleri çözmek için bunları ve diğer sonuçları sayısal analizden ödünç alırlar, ancak bu daha çok bir matematik sorusudur.
user23658

1
fg

2
λg(x)=0g(x)0g(x)<0xλλg(x)=0λλ>0

1
xx

Yanıtlar:


8

xδfxx

Optimizasyon probleminiz olduğunu düşünün:

minimize (over x)f(x)subject toj{1k}gj(x)0

Burada ve kısıtlamaları vardır.xRnk

KKT koşulları ve Farkas Lemma

Let gradyanı gösteren bir sütun vektörü değerlendirildi .f(x)fx

Bu duruma uygulandığında Farkas Lemma , herhangi bir nokta için nin aşağıdaki ifadelerden birinin tam olarak geçerli olduğunu belirtmektedir :xRn

  1. Orada var olan , öyle ki veλRkj=1kλjgj(x)=f(x)λ0
  2. Orada var şekilde veδRnjδgj(x)0δf(x)<0

Ne anlama geliyor? Bu, herhangi bir olası nokta için , aşağıdakilerden biri anlamına gelir :x

  • Koşul (1) geçerlidir ve KKT koşulları karşılanır.
  • Koşul (2), kısıtlamalarını arttırmadan objektif işlevi geliştiren uygun bir yön vardır . (örneğin , den geçerek iyileştirebilirsiniz )δfgjfxx+ϵδ

Koşul (1) , KKT koşullarının noktasında karşılandığı şekilde negatif olmayan çarpanları olduğunu belirtir . (Geometrik olarak, , kısıtlamaların gradyanları tarafından tanımlanan dışbükey yatar.)λxf

Koşul (2), noktasında yönünün (yerel olarak) şu şekilde hareket edeceğini belirtir:xδ

  • yönünde hareket etmek objektif işlevi azaltır (çünkü ve nokta çarpımı sıfırdan küçüktür).δf(x)δ
  • yönünde hareket etmek kısıtlamaların değerini artırmaz (çünkü ve nokta çarpımı için sıfırdan küçük veya ona eşittir kısıtlamalar ).δgj(x)δj

(Geometrik olarak, uygulanabilir yön vektörü ve vektörleri tarafından tanımlanan dışbükey koni arasında bir ayırma .)δf(x)gj(x)

(Not: Bu harita Farkas lemması tanımlar, matris )A=[g1,g2,,gk]

Bu argüman size KKT koşullarının gerekliliğini (ancak yeterli olmamasını) en uygun şekilde sağlar. KKT koşulları karşılanmazsa (ve kısıtlama nitelikleri karşılanırsa), kısıtlamaları ihlal etmeden hedefi iyileştirmek mümkündür.

Kısıt yeterliliklerin rolü

Ne yanlış gidebilir? Kısıtların gradyanlarının taşınacak uygun yönleri doğru bir şekilde tanımlamadığı dejenere durumlar elde edebilirsiniz.

Yukarıdaki argümanın çalışmasına izin verecek çok sayıda farklı kısıtlama niteliği vardır .

Min, maks yorumlama (en sezgisel imho)

Lagrange'yi oluşturun

L(x,λ)=f(x)+j=1kλjgj(x)

Bunun yerine en aza indirmenin kısıtlamalarına tabi , en aza indirmek için çalışıyoruz hayal bazı rakip bunu maksimize etmeye çalışırken. Çarpanları kısıtlamaları ihlal ettiği için (bazı rakipler tarafından seçilen) ceza olarak yorumlayabilirsiniz . g j L λ ifgjLλi

Orijinal optimizasyon sorununun çözümü şuna eşdeğerdir:

minxmaxλL(x,λ)

Yani:

  1. Lagrange yi en aza indirmek için ilk olarak i seçersiniz .xL
  2. Daha sonra Lagrange'yi en üst düzeye çıkarmak için seçeceğim (pick gözlemledikten sonra ).λx

Örneğin, kısıtlamasını ihlal , sonsuza ayarlayarak sizi cezalandırabilirim !g2λ2

Zayıf ikilik

Herhangi bir fonksiyonu için aşağıdakilere dikkat edin:f(x,y)

x^,y^minxf(x,y^)f(x^,y^)maxyf(x^,y)

Bu ve için geçerli olduğu için: x^y^

maxyminxf(x,y)minxmaxyf(x,y)

Langrian ayarında bu sonuç zayıf ikilik olarak bilinir.maxλminxL(x,λ)minxmaxλL(x,λ)

İkili sorun size çözüm üzerinde bir alt sınır verirmaxλminxL(x,λ)

Güçlü ikilik

Belirli özel koşullar altında (örn. Slater koşulunun bulunduğu dışbükey problemi), güçlü bir ikilik (yani eyer noktası özelliği) vardır.

maxλminxL(x,λ)=minxmaxλL(x,λ)

Bu güzel sonuç, sorunun sırasını tersine çevirebileceğiniz anlamına gelir.

  1. Lagrange'yi en üst düzeye çıkarmak için ilk olarak cezaları seçiyorum .λ

  2. Daha sonra Lagrange yi simge durumuna küçültmek için i seçersiniz .LxL

bu süreçte seti kısıtlamalarını ihlal fiyatları vardır ve fiyatları ne kısıtlamaları ihlal asla böyle ayarlanır.λ


Anlayış boşluklarını doldurmak için bilgileri ve bağlantıları takdir edin. Onaylamama izin ver. Koşul (1), KKT'nin bir X noktasının çözelti olduğunu söylemesi, λ * g (X) = 0, λ> = 0'ı karşılaması gerektiği ve g (X) eğiminin uzunluğunun f (X) 'inkini, aksi takdirde küçük f (X') 'nin bulunabileceği yerlerde f (X) nokta yönünün gradyanını bulacağız?
Pzt

3
Slater koşulu (sadece) dışbükey optimizasyon problemlerine uygulanabilen, yani KKT'yi gerekli kılan bir kısıtlama yeterliliğidir. Konvekslik KKT'yi yeterli kılar. Dolayısıyla, objektif fonksiyon ve kısıtların dışbükey ve sürekli olarak farklılaşabildiği dışbükey optimizasyon problemi için Slater koşulu, KKT'yi küresel minimumlar için gerekli ve yeterli kılar. Slater koşulu, tüm doğrusal olmayan kısıtlamaların katı iç kısmında en az bir uygulanabilir noktanın (yani, tüm kısıtlamaların karşılanması) olmasıdır (mümkün olduğu sürece, her şey doğrusal kısıtlamalarla gider).
Mark L. Stone

5

f (x) konveks olması, KKT'nin x'in yerel minimum olması için yeterli olması için gereklidir. F (x) veya -g (x) dışbükey değilse, KKT'yi tatmin eden x yerel minimum, eyer noktası veya yerel maksimum olabilir.

g (x) doğrusal olmakla birlikte, f (x) ile sürekli olarak farklılaşabilmek, KKT koşullarının yerel minimumlar için gerekli olması için yeterlidir. g (x) doğrusal olmak, KKT'nin lokal minimum için gerekli olması için Doğrusallık kısıtlama yeterliliğinin karşılandığı anlamına gelir. Bununla birlikte, KKT koşullarının yerel minimumlar için yeterli olması için daha az kısıtlayıcı kısıtlama nitelikleri vardır. Https://en.wikipedia.org/wiki/Karush%E2%80%93Kuhn%E2%80%93Tucker_conditions'ın Düzenlilik koşulları (veya kısıtlama nitelikleri) bölümüne bakın .

Yerel bir minimumun "aktif" kısıtlaması yoksa (bu nedenle, sadece bir eşitsizlik kısıtlaması durumunda, bu sınırlama eşitlikten memnun olmazsa), bu tür kısıtlamalarla ilişkili Lagrange çarpanları sıfır olmalıdır, bu durumda KKT, objektifin gradyanı = 0. Böyle bir durumda, kısıtlamanın bir epsilon sıkılaştırmasının optimal objektif değerine sıfır "maliyet" vardır.

Daha fazla bilgi :

Nesnel işlev ve kısıtlamalar dışbükeydir ve sürekli olarak ayırt edilebilir imalar KKT küresel minimumlar için yeterlidir.

Eğer nesnel işlev ve kısıtlamalar sürekli olarak farklılaşıyorsa ve kısıtlamalar bir kısıtlama niteliğini sağlıyorsa, yerel bir minimum için KKT gereklidir.

Eğer nesnel işlev ve kısıtlamalar sürekli olarak farklılaşıyorsa, dışbükey ve kısıtlamalar bir kısıtlama niteliğini sağlıyorsa, KKT küresel bir minimum için gereklidir ve yeterlidir.

Yukarıdaki tartışma aslında sadece 1. derece KKT koşulları ile ilgilidir. Aynı zamanda şu şekilde ifade edilebilen 2. dereceden KKT koşulları da vardır: 1. dereceden KKT koşullarını karşılayan ve objektif işlev ve kısıtlamaların sürekli olarak iki kez farklılaşabildiği bir nokta, Lagrangian Hessian'ın Aktif kısıtlamaların Jacobian'ının boş alanı pozitif semidefinittir. (Önceki cümlede kullanılan terminolojiye bakmanıza izin vereceğim.) aktif kısıtlamaların Jacobian'ının boş alanı için bir temel olmasına izin vermek , 2. dereceden KKT koşulu, yarı yarıya pozitif olması, buradaZ T H Z H ZZZTHZHLagrange'nin Hessyanıdır. Aktif kısıtlamalar, tüm eşitlik kısıtlamaları ile söz konusu noktada eşitlikten memnun olan tüm eşitsizlik kısıtlamalarından oluşur. Söz konusu birinci dereceden KKT noktasında herhangi bir kısıtlama aktif değilse, kimlik matrisi boş bir taban ve tüm Lagrange çarpanları sıfır olmalıdır, bu nedenle, yerel bir minimum için gerekli olan 2. sıra koşulu, sınırlandırılmamış optimizasyondan bilinen duruma indirgenir Objektif fonksiyonun Hessyanının yarı yarıya pozitif olması. Tüm kısıtlamalar doğrusalsa, Lagrangian Hessian = nesnel fonksiyon Hessian çünkü lineer fonksiyonun 2. türevi = 0.Z

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.