Simetrik pozitif tanımlı (SPD) matrisler neden bu kadar önemlidir?


20

Simetrik pozitif tanımlı (SPD) matrisin tanımını biliyorum, ama daha fazla anlamak istiyorum.

Sezgisel olarak neden bu kadar önemli?

İşte bildiklerim. Başka?

  • Belirli bir veri için Ko-varyans matrisi SPD'dir. Ko-varyans matrisi önemli bir metriktir, sezgisel açıklama için bu mükemmel gönderiye bakın .

  • SPD ise, ikinci dereceden form dışbükeydir . Konveksite, yerel çözümün küresel çözüm olmasını sağlayan bir işlev için güzel bir özelliktir. Convex problemleri için çözülmesi gereken birçok iyi algoritma vardır, ancak covex olmayan problemler için değildir.12xAxbx+cA

  • SPD olduğunda , kuadratik form için optimizasyon çözümü ve doğrusal sistemi için çözüm aynıdır. Böylece iki klasik problem arasında dönüşümler yapabiliriz. Bu önemlidir, çünkü bir alanda başka bir alanda bulunan hileleri kullanmamızı sağlar. Örneğin, doğrusal bir sistemi çözmek için eşlenik gradyan yöntemini kullanabiliriz.A

    minimize   12xAxbx+c
    Ax=b
  • Cholesky ayrışması gibi bir SPD matrisi için daha iyi çalışan birçok iyi algoritma (hızlı, sayısal kararlı) vardır.

EDIT: SPD matris için kimlikler sormaya çalışmıyorum, ama özellik arkasındaki sezgi önemi göstermek için. Örneğin, @ Matthew Drury tarafından belirtildiği gibi, eğer bir matris SPD ise, Özdeğerlerin hepsi pozitif gerçek sayılardır, ancak neden tüm pozitif önemlidir. @ Mathew Drury'nin akması için harika bir cevabı vardı ve aradığım şey buydu.


7
Özdeğerlerin hepsi pozitif gerçek sayılardır. Bu gerçek, diğerlerinin birçoğunun temelini oluşturmaktadır.
Matthew Drury

4
@Matthew'dan biraz daha ileri gitmek için: Uygun bir temel seçerseniz, bu tür tüm matrisler aynıdır ve kimlik matrisine eşittir. Diğer bir deyişle, her boyutta (Gerçek vektör uzayları için) tam olarak bir pozitif-kesin kuadratik form vardır ve bu Öklid mesafesi ile aynıdır.
whuber

2
Gerçek bir simetrik matrisin öz değerlerini göstermenin birçok temel yolunda bazı sezgi bulacaksınız: mathoverflow.net/questions/118626/… Özellikle ikinci dereceden , Rayleigh bölümünde doğal olarak oluşur, ve simetrik matrisler, özdeğerleri gerçek olan geniş bir matris ailesini sergilemenin doğal bir yolunu sunar. Örneğin Courant minimax teoremine bakın: en.wikipedia.org/wiki/Courant_minimax_principlexTAx
Alex R.

4
Bu çok geniş görünüyor; zaten üç cevabı olmasaydı, muhtemelen bu temelde kapatırdım. Lütfen özellikle bilmek istediğiniz şey hakkında daha fazla rehberlik sunun (sezgi istemek, insanların böyle bir durumda tahmin edemeyecekleri çok kişisel / bireyseldir)
Glen_b -Reinstate Monica

1
Ben psd olmayan bir matrise yol açacak istatistiklerde bir durum ortaya çıkmakta zorlanıyorum (bir korelasyon matrisini hesaplamada berbat olmadıkça, örneğin eksik değerleri olan verilerde hesaplanan çift yönlü korelasyon ile doldurarak) . Düşünebileceğim herhangi bir kare simetrik matris, bir kovaryans, bir bilgi veya bir projeksiyon matrisidir. (Uygulamalı matematikte başka yerlerde, psd olmayan matrisler kültürel bir norm olabilir, örneğin
PDE'deki

Yanıtlar:


15

Bir (gerçek) simetrik matris, karşılık gelen özdeğerlerin hepsinin gerçek sayılar olduğu tam bir ortogonal özvektör setine sahiptir. Simetrik olmayan matrisler için bu başarısız olabilir. Örneğin, iki boyutlu uzayda bir dönüşün gerçek sayılarda özvektörü veya özdeğerleri yoktur, bunları bulmak için karmaşık sayılar üzerinden bir vektör uzayına geçmelisiniz.

Matris ek olarak pozitif tanımlıysa, bu özdeğerlerin tümü pozitif gerçek sayılardır. Bu gerçek birinciden çok daha kolaydır, çünkü birim uzunluğa sahip bir özvektörse ve ilgili özdeğer λ ise,vλ

λ=λvtv=vtAv>0

burada son eşitlik pozitif kesinlik tanımını kullanır.

Sezginin önemi, doğrusal bir dönüşümün özvektörlerinin ve özdeğerlerinin, dönüşümün en kolay anlaşıldığı koordinat sistemini tanımlamasıdır. Doğrusal bir dönüşümün standart koordinat sistemi gibi "doğal" bir temelde anlaşılması çok zor olabilir, ancak her biri, dönüşümün her yönde bir ölçekleme görevi gördüğü özvektörlerin "tercih edilen" bir temeli ile birlikte gelir. Bu, dönüşümün geometrisinin daha kolay anlaşılmasını sağlar.

Örneğin, bir işlev lokal ekstremlerinde ikinci türev testi genellikle ikinci türev matris ve bazı belirleyicileri bir girişi içeren gizemli bir dizi koşul olarak verilir. Aslında, bu koşullar aşağıdaki geometrik gözlemi basitçe kodlar:R2R

  • İkinci türevlerin matrisi pozitif tanımlıysa, yerel minimumda olursunuz.
  • İkinci türevlerin matrisi negatif tanımlıysa, yerel maksimumdasınız.
  • Aksi takdirde, ikisinde de bir eyer noktasında değilsiniz.

Bunu bir özdeğerde yukarıdaki geometrik akıl yürütme ile anlayabilirsiniz. Kritik bir noktada ilk türev kaybolur, bu nedenle burada fonksiyonun değişim oranları ikinci türev tarafından kontrol edilir. Şimdi geometrik olarak mantık yürütebiliriz

  • İlk durumda iki öz-yön vardır ve eğer hareket ederseniz fonksiyon artar.
  • İkincisi, iki öz-yön ve her iki yönde hareket ederseniz işlev azalır.
  • Sonunda, iki öz-yön vardır, ancak bunlardan birinde fonksiyon artar ve diğerinde azalır.

Özvektörler tüm alanı kapladığından, başka herhangi bir yön öz-yönlerin doğrusal bir kombinasyonudur, bu nedenle bu yönlerdeki değişim hızları öz yönlerindeki değişim hızlarının doğrusal kombinasyonlarıdır. Aslında, bu her yönden geçerlidir (bu, daha yüksek boyutlu bir alanda tanımlanan bir fonksiyonun ayırt edilebilir olması anlamına gelir). Şimdi kafanıza küçük bir resim çizerseniz, bu yeni başlayan matematik metinlerinde oldukça gizemli olan bir şeyden çok mantıklı geliyor.

Bu doğrudan madde işaretlerinizden biri için geçerlidir

İkinci dereceden form ASPD ise 2 xAx-bx+cdışbükeydir. Convex, yerel çözümün küresel çözüm olmasını sağlayan güzel bir özelliktir12xAxbx+cA

İkinci türevlerinin matris pozitif tanımlı simetrik olan, her yerde. Geometrik olarak, bu, herhangi bir öz-yönde uzaklaştığımızda (ve dolayısıyla herhangi bir yönde, başka herhangi biri öz-yönlerin doğrusal bir kombinasyonu olduğu için), işlevin kendisinin teğet düzleminin üzerinde büküleceği anlamına gelir. Bu, tüm yüzeyin dışbükey olduğu anlamına gelir.A


5
Grafiksel olarak bakmanın bir yolu: SPD ise, ilişkili ikinci dereceden formun konturları elipsoidaldir. A
JM bir istatistikçi değil

7
@JM tarafından yapılan bu karakterizasyon çok algılayıcı. Elipsoidal konturlar hakkında neyin özel olabileceğini merak ederse, sadece kılık değiştirmiş mükemmel küreler olduklarına dikkat edin: ölçüm birimleri ana eksenleri boyunca farklılık gösterebilir ve elipsoidler, verilerin tanımlandığı koordinatlara göre döndürülebilir ancak pek çok amaç için - özellikle kavramsal olanlar - bu farklılıklar önemsizdir.
whuber

Bu Newton'un yöntemini geometrik olarak anlama şeklim ile ilgili. Bir elipsoid ile ayarlanan mevcut seviyeye en iyi yaklaşık olarak yaklaşın ve ardından elipsoidin bir daire olduğu bir koordinat sistemini alın, o koordinat sistemindeki daireye dik hareket edin.
Matthew Drury

1
(Aktif) kısıtlamalar varsa, özdeğer ve eigendirection spiel yapmadan önce aktif kısıtlamaların Jacobian'ına yansıtmanız gerekir. Hessian psd ise, (herhangi bir) projeksiyon psd olacaktır, ancak bunun tersi mutlaka doğru değildir ve çoğu zaman doğru değildir. Cevabımı gör.
Mark L. Stone

10

Gerçek bir simetrik matrisin özdeğerlerini göstermenin birçok temel yolunda bazı sezgi bulacaksınız: /mathpro/118626/real-symmetric-matrix-has-real-eigenvalues-elementary- geçirmez / 118640 # 118640

Özellikle, kuadratik formu Rayleigh bölüm doğal olarak ve simetrik matrisler tartışmasız özdeğerler gerçek matrislerin büyük bir aile sergileyen en doğal yolu ne sağlayabilir. Courant minimax teoremine bakınız: https://en.wikipedia.org/wiki/Courant_minimax_principlexTbirx

: Aynı zamanda simetrik kesinlikle pozitif tanımlı matrisler, yalnızca bir indüklenmiş norm ile birlikte, önemsiz olmayan bir iç çarpım tanımlayabilir matrislerin ayarlanır . Çünkü gerçek x , y d ( x , y ) = d ( y , x ) vektörleri için tanım gereği tüm x , y ve definition x 2 =d(x,y)=x,Ay=xTAyx,y d(x,y)=d(y,x)x,y için X 0 . Bu şekilde, simetrik pozitif belirli matrisler koordinat dönüşümleri için ideal adaylar olarak görülebilir.x2=xTAx>0x0

Bu ikinci özellik, destek vektör makineleri alanında, özellikle çekirdek yöntemleri ve çekirdeğin doğru iç ürünü indüklemek için simetrik pozitif olması gereken çekirdek hilesi alanında kesinlikle önemlidir. Gerçekten de Mercer teoremi , simetrik matrislerin sezgisel özelliklerini fonksiyonel uzaylara genelleştirir.


9

Optimizasyon ile ilgili olarak (sorunuzu optimizasyon etiketi ile etiketlediğiniz için), SPD matrisleri basit bir nedenden dolayı son derece önemlidir - SPD Hessian arama yönünün iniş yönü olduğunu garanti eder. Kısıtsız optimizasyon için Newton yönteminin türetilmesini düşünün. İlk olarak, :f(x+Δx)

f(x+Δx)f(x)+ΔxTf(x)+12ΔxT2f(x)Δx

Sonra, ile ilgili türevi alıyoruz :Δx

f(x+Δx)f(x)+2f(x)Δx

Son olarak, türevi 0'a ayarlayın ve için çözün :Δx

Δx=2f(x)1f(x)

2f(x)Δx

f(x)TΔx=f(x)T2f(x)1f(x)<0

Newton yöntemi kullanıldığında, SPD olmayan Hessian matrisleri tipik olarak SPD olarak "dürtülür". SPD olmayan bir Hessian'ı algılayacak, modifiye Cholesky adı verilen düzgün bir algoritma var, bunu doğru yönde "dürtüyor" ve sonuç bir faktöre bağlıyor. Quasi-Newton yöntemleri yaklaşık Hessian'ı SPD olmaya zorlayarak bu problemden kaçınır.

Bir yana, simetrik belirsiz sistemler bugünlerde çok ilgi görüyor. Kısıtlı optimizasyon için iç nokta yöntemleri bağlamında ortaya çıkarlar.


Mükemmel cevap için çok teşekkür ederim. Doğru yönlendirme, hat arama yönteminde önemlidir. Güven bölgesi yöntemlerinde iyi yönlendirme de önemlidir?
Haitao Du

1
Güven bölgesi yöntemleri için hala önemlidir. Güven bölgesi yöntemleri temel olarak İLK adım boyutunu sınırlayıp sonra adım yönü için çözerek çalışır. Adım, objektif işlev değerinde istenen azalmayı sağlayamazsa, adım boyutundaki sınırı azaltır ve baştan başlarsınız. Adım yönünü oluşturmak için algoritmanızın adım yönünün bir iniş yönü olduğunu garanti etmediğini düşünün. Güven bölgesinin yarıçapı 0'a gitse bile, hiçbir zaman kabul edilebilir bir adım oluşturamazsınız (bir tane olsa bile) adım adımlarınızın hiçbiri iniş yönleri değildir.
Bill Woessner

Çizgi arama yöntemleri temelde aynı davranışı gösterir. Arama yönünüz bir iniş yönü değilse, satır arama algoritması asla kabul edilebilir bir adım uzunluğu bulamayabilir - çünkü bir tane yoktur. :-)
Bill Woessner

Harika cevap, parçaları birleştirmeme yardımcı olduğun için teşekkür ederim.
Haitao Du

9

Geometrik olarak, pozitif belirli bir matris bir metriği , örneğin bir Riemann metriğini tanımlar , böylece hemen geometrik kavramları kullanabiliriz.

xyA

d(x,y)=(xy)TA(xy)

Rn

x,y=xTAy
ARn


1
bir=ben

6

Simetrik pozitif belirli matrislerin neden bu kadar önemli olduğunu açıklayan birkaç cevap var, bu yüzden neden bu cevapların bazılarının yazarları da dahil olmak üzere bazı insanlar kadar önemli olmadıklarını açıklayan bir cevap vereceğim. Basitlik adına, odağı simetrik matrislerle sınırlayacağım ve Hessen'lere ve optimizasyona odaklanacağım.

Tanrı dünyayı dışbükey yapmış olsaydı, dışbükey optimizasyon olmazdı, sadece optimizasyon olurdu. Benzer şekilde, (simetrik) pozitif belirli matrisler olmayacak, sadece (simetrik) matrisler olacaktır. Ama durum böyle değil, bu yüzden halledin.

Karesel Programlama problemi dışbükey ise, "kolayca" çözülebilir. Dışbükey değilse, dal ve bağlı yöntemler kullanılarak küresel bir optimum hala bulunabilir (ancak daha uzun ve daha fazla bellek alabilir).

Optimizasyon için bir Newton yöntemi kullanılıyorsa ve bazı yinelemelerde Hessian belirsizse, o zaman bunu pozitif kesinliğe "hizalamak" gerekli değildir. Bir çizgi arama kullanılıyorsa, negatif eğrilik yönleri bulunabilir ve bunlar boyunca çizgi arama yapılabilir ve bir güven bölgesi kullanılıyorsa, güven bölgesi sorununun çözümünün inişe geçeceği kadar küçük bir güven bölgesi vardır.

Quasi-Newton yöntemlerine gelince, BFGS (problem kısıtlanırsa sönümlenir) ve DFP, Hessian veya ters Hessian yaklaşımının pozitif kesinliğini korur. SR1 (Simetrik Derece Bir) gibi diğer Quasi-Newton yöntemleri mutlaka pozitif kesinliği korumaz. Tüm bunlar üzerinde şekil almadan önce, birçok sorun için SR1'i seçmek için iyi bir neden - eğer Hessian optimum yol boyunca gerçekten pozitif kesin değilse, sonra Quasi-Newton yaklaşımını pozitif kesin olmaya zorlar Objektif fonksiyona kötü bir kuadratik yaklaşımla sonuçlanabilir. Buna karşılık, SR1 güncelleme yöntemi "bir kaz kadar gevşek" dir ve devam ederken, kesinliğini kesin olarak değiştirebilir.

Doğrusal olmayan kısıtlı optimizasyon problemleri için, asıl önemli olan nesnel fonksiyonun Hessili değil, Lagrangian'ın Hessianıdır. Lagrangian Hessian, optimum (hatta) optimumda bile belirsiz olabilir ve aslında, sadece Lagrangian Hessianının pozitif yarıya ihtiyaç duyan aktif (lineer ve lineer olmayan) Jacobian'ın boşluğuna projeksiyonudur. - optimumda belirsiz. Lagrangianlı Hessian'ı BFGS aracılığıyla modellerseniz ve böylece pozitif kesin olarak kısıtlarsanız, her yerde korkunç bir uyum olabilir ve iyi çalışmaz. Aksine, SR1 özdeğerlerini gerçekte "gördüklerine" uyarlayabilir.

Tüm bunlar hakkında söyleyebileceğim çok daha fazlası var, ama bu size bir lezzet vermek için yeterli.

Düzenleme : Ne yazdım 2 paragraf yukarı doğrudur. Ancak bunun doğrusal olarak kısıtlanmış problemler için de geçerli olduğunu belirtmeyi unuttum. Doğrusal olarak kısıtlanmış problemler söz konusu olduğunda, Lagrangian Hessian nesnel fonksiyonun Hessianıdır (aşağı iner). Dolayısıyla, yerel bir minimum için 2. mertebe optimallik koşulu, Hessian'ın nesnel işlevin, aktif kısıtlamaların Jacobian'ının boş alanına projeksiyonunun pozitif yarı-kesin olmasıdır. En önemlisi, nesnel fonksiyonun Hessianının (zorunlu olarak) optimum düzeyde psd olması gerekmez ve çoğu zaman doğrusal olarak kısıtlanmış problemlerde bile değildir.



@ GeoMatt22 @ bahis bahsinizi yapmadım. Öte yandan, bir kayıp fonksiyonu yaratacaksanız (seçecekseniz), gösteri botu dışında iyi bir amaca hizmet etmediğinde dışbükey yapmanıza gerek yoktur. Takdir hakkı, vasıfın daha iyi bir parçasıdır.
Mark L. Stone

@ Mark L. Stone: Bu ilginç! Bu tür şeyler hakkında okuyabileceğim bazı literatüre başvurabilir misiniz?
kjetil b halvorsen

@kjetil b halvorsen. Negatif eğrilik yönleriyle çizgi arama folk.uib.no/ssu029/Pdf_file/Curvilinear/More79.pdf . Güven bölgeleri birçok kitap ve makalede ele alınmıştır. Bölgelere güvenmek için iyi bir girişe sahip iyi bilinen kitap amazon.com/… .. Canavar kitap, şimdi biraz güncel değil, epubs.siam.org/doi/book/10.1137/1.9780898719857 . Optimallik koşulları hakkında son paragrafım gelince, 2. dereceden KKT koşullarını okuyun
Mark L. Stone

@kjetil b halvorsen Dışbükey olmayan Karesel Programın küresel optimumunu bulmaya değinmedim. CPLEX gibi yaygın olarak bulunan yazılımlar bunu yapabilir, bkz . İbm.com/support/knowledgecenter/ SS9UKU_12.6.1/… . Tabii ki her zaman hızlı değildir ve biraz belleğe ihtiyaç duyabilir. Küresel iyimserliğe, birkaç yüz anlamlı büyüklükte negatif özdeğerleri olan on binlerce değişkenle bazı QP minimizasyon problemlerini çözdüm.
Mark L. Stone

5

SPD'nin neden önemli olduğuna dair birçok neden belirtmişsiniz, ancak yine de soruyu gönderdiniz. Bana öyle geliyor ki, önce bu soruyu cevaplamanız gerekiyor: Pozitif miktarlar neden önemlidir?

Cevabım, deneyimlerimizle veya modellerimizle uzlaşmak için bazı miktarların olumlu olması gerektiğidir. Örneğin, uzaydaki öğeler arasındaki mesafelerin pozitif olması gerekir. Koordinatlar negatif olabilir, ancak mesafeler her zaman negatif değildir. Bu nedenle, bir veri kümeniz ve onu işleyen bir algoritmanız varsa, buna negatif bir mesafe beslediğinizde bozulan bir algoritmaya sahip olabilirsiniz. Yani, "algoritmam her zaman pozitif mesafe girişleri gerektirir" diyorsunuz ve mantıksız bir talep gibi gelmiyor.

İstatistik bağlamında, daha iyi bir benzetme varyans olacaktır. Bu nedenle, varyansı şu şekilde hesaplıyoruz:

Σben(xben-μ)2/n
Tanımdan, gerçek sayıları beslerseniz xbendenklemin içine çıktı her zaman negatif değildir. Bu nedenle, negatif olmayan sayılarla çalışan algoritmalar oluşturabilirsiniz ve bu kısıtlama olmaksızın algoritmadan daha verimli olabilirler. Onları kullanmamızın nedeni budur.

Dolayısıyla, varyans-kovaryans matrisleri pozitif yarı-tanımlıdır, yani bu benzetmede "negatif olmayan" dır. Bu koşulu gerektiren bir algoritma örneği Cholesky ayrışmasıdır, çok kullanışlıdır. Genellikle "matrisin karekökü" olarak adlandırılır. Yani, olumsuzluk gerektiren gerçek bir sayının kare kökü gibi, Cholesky negatif olmayan matrisler ister. Kovaryans matrisleriyle uğraşırken bu kısıtlamayı bulamıyoruz çünkü her zaman öyledir.

Bu benim faydacı cevabım. Olumsuzluk veya SPD gibi kısıtlamalar, girdileriniz bu kısıtlamaları karşıladığında kullanılabilecek daha verimli hesaplama algoritması veya kullanışlı modelleme araçları oluşturmamıza olanak tanır.


3

Pozitif semidefinite matrislerinin neden önemli olduğu için belirtilmeyen iki neden daha:

  1. Grafik Laplacian matrisi çapraz olarak baskındır ve bu nedenle PSD'dir.

  2. Pozitif yarı bitirlik, simetrik matrisler kümesinde kısmi bir sıra tanımlar (bu, yarı bitirici programlamanın temelidir).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.