SVD'yi kararlı hale getirmek için ne kadar düzenlileştirme eklenir?

Intel MKL'nin SVD'sini ( dgesvdSciPy aracılığıyla) kullanıyorum ve matrisim kötü koşullu / tam sıralı değilken hassasiyeti değiştirdiğimde float32ve sonuçların önemli ölçüde farklı olduğunu fark ettim float64. Ben sonuçları için duyarsız hale getirmek için eklemek gerekir regülarizasyon minimum miktarda bir rehber var mı float32> - float64değişiklik?

Özel olarak, kullanıcının durumu , bunun bakınız normu yaklaşık 1 ile hamle I arasında hassas değiştirmek ve . norm olan ve 784 toplam üzerinden sıfır yaklaşık 200 özdeğer sahiptir. $A=UDV^{T}$ $L_\infty$ $V^{T}X$ float32float64 $L_2$ $A$ $10^5$

ile SVD yapmak farkı ortadan kaldırdı. $\lambda I + A$ $\lambda=10^{-3}$

— Yaroslav Bulatov
kaynak

Boyutu nedir

N

$N$ bir

N \times N

$N\times N$ matris

A

$A$ bu örnek için (bir kare matris bile mi)? 200 sıfır özdeğer veya tekil değerler? Bir Frobenius normu

| | A | |_{F}

$||A||_\text{F}$ temsili bir örnek için de yararlı olacaktır.

— Anton Menshov

Bu durumda 784 x 784 matris, ama

— lambda'nın

Yani,

V

$V$ sadece sıfır tekil değerlere karşılık gelen son sütunlarda?

— Nick Alger

Birkaç eşit tekil değer varsa, svd benzersiz değildir. Örneğinizde, sorunun çoklu sıfır tekil değerlerinden kaynaklandığını ve farklı bir hassasiyetin ilgili tekil alan için farklı bir temel seçimine yol açtığını tahmin ediyorum. Düzenlediğinizde bunun neden değiştiğini bilmiyorum ...

— Dirk

...nedir

X

$X$ ?

— Federico Poloni

Yanıtlar:

Sorunun harika bir cevabı olmasına rağmen, burada küçük tekil değerler için bir arsa ile bir kural.

Tekil bir değer sıfırdan farklı ancak çok küçükse, görünen değeri muhtemelen anlamlı bir sayı değil, bir yuvarlama hatasının bir yapaylığı olduğu için karşılıklı değerini sıfır olarak tanımlamanız gerekir. "Ne kadar küçük?" Sorusuna makul bir cevap. bu şekilde en büyük oranı en düşük olan tüm tekil değerleri düzenlemek $N$ makine hassasiyetinin katları $\epsilon$ .

$\qquad$ - Sayısal Tarifler s. 795

Eklendi: aşağıdaki birkaç satır bu başparmak kuralını hesaplar.

#!/usr/bin/env python2

from __future__ import division
import numpy as np
from scipy.sparse.linalg import svds  # sparse, dense or LinOp

#...............................................................................
def howsmall( A, singmax=None ):
    """ singular values < N float_eps sing_max  may be iffy, questionable
        "How small is small ?"
        [Numerical Recipes p. 795](http://apps.nrbook.com/empanel/index.html?pg=795)
    """
        # print "%d singular values are small, iffy" % (sing < howsmall(A)).sum()
        # small |eigenvalues| too ?
    if singmax is None:
        singmax = svds( A, 1, return_singular_vectors=False )[0]  # v0=random

    return max( A.shape ) * np.finfo( A.dtype ).eps * singmax

Hilbert matrisi, yuvarlama hatası için bir test durumu olarak yaygın olarak kullanılmaktadır:

Burada Hilbert matrisinin mantislerindeki düşük dereceli bitler sıfırlanır A.astype(np.float__).astype(np.float64), sonra np.linalg.svdçalıştırılır float64. (Sonuçların svdhepsi float32aynıdır.)

Basitçe kesmek float32, örneğin tren / test sınıflandırması gibi yüksek boyutlu verilerin kınanması için bile yararlı olabilir.

Gerçek test vakaları memnuniyetle karşılanacaktır.

— denis
kaynak

btw, scipy, float32 için 1e3 ve float64 için 1e6 faktörünü ekliyor gibi görünüyor, bunların nereden geldiğini merak ediyor

— Yaroslav Bulatov

@Yaroslav Bulatov numpyve scipy.linalg.svdLAPACK gesdd parametresini arayın , şu parametreye JOBRbakın dgejsv: "Tekil değerler için RANGE değerini belirtir. Dışarıdalarsa sıfır pozitif tekil değerlere sıfırlama lisansını verir ..." ( scipy.sparse.linalg.svdsARPACK'i sarar ve tolTolerance parametresine sahiptir. tekil değerler için.)

— denis

Simetrik bir matris için tekil değer ayrışımı $A=A^{T}$ aynı zamanda simetrik olmayan bir matris için aynı şeyken, kanonik öz-bileşimi ile aynıdır (yani bir ortonormal özvektör matrisi ile). $M=U \Sigma V^T$ simetrik matris için sadece kanonik özdeğer ayrışmasıdır

'H = [\begin{matrix} 0 & M \\ M^{T} & 0 \end{matrix}] = [\begin{matrix} U & 0 \\ 0 & V \end{matrix}] [\begin{matrix} 0 & Σ \\ Σ & 0 \end{matrix}] {[\begin{matrix} U & 0 \\ 0 & V \end{matrix}]}^{T}

$H=\begin{bmatrix}0 & M\\ M^{T} & 0 \end{bmatrix}=\begin{bmatrix}U & 0\\ 0 & V \end{bmatrix}\begin{bmatrix}0 & \Sigma\\ \Sigma & 0 \end{bmatrix}\begin{bmatrix}U & 0\\ 0 & V \end{bmatrix}^{T}$ Bu nedenle, genelliği kaybetmeden, yakından ilgili bir soruyu ele alalım: İki simetrik matris yaklaşık olarak aynı ise, o zaman kanonik öz kompozisyonlarının da yaklaşık olarak aynı olmasını beklemeliyiz?

Cevap şaşırtıcı bir hayır. İzin Vermek $\epsilon>0$ küçük olun ve iki matrisi düşünün

{bir}_{ε} = [\begin{matrix} 1 & ε \\ ε & 1 \end{matrix}] = V Λ_{ε} V^{T}, B_{ε} = [\begin{matrix} 1 + ε & 0 \\ 0 & 1 - ε \end{matrix}] = U Λ_{ε} U^{T}

$A_{\epsilon}=\begin{bmatrix}1 & \epsilon\\ \epsilon & 1 \end{bmatrix}=V\Lambda_{\epsilon}V^{T},\qquad B_{\epsilon}=\begin{bmatrix}1+\epsilon & 0\\ 0 & 1-\epsilon \end{bmatrix}=U\Lambda_{\epsilon}U^{T}$ ikisi de özdeğerlidir

Λ_{ϵ} = d i a g (1 + ϵ, 1 - ϵ)

$\Lambda_{\epsilon}=\mathrm{diag}(1+\epsilon,1-\epsilon)$ , ama özvektörleri olan

V = \frac{1}{\sqrt{2}} [\begin{matrix} 1 & 1 \\ 1 & - 1 \end{matrix}], U = [\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix}] .

$V=\frac{1}{\sqrt{2}}\begin{bmatrix}1 & 1\\ 1 & -1 \end{bmatrix},\qquad U=\begin{bmatrix}1 & 0\\ 0 & 1 \end{bmatrix}.$ Matrisler

A_{ϵ} \approx B_{ϵ}

$A_{\epsilon} \approx B_{\epsilon}$ yaklaşık olarak aynı, özvektör matrisi

V

$V$ ve

U

$U$ çok farklılar. Gerçekten de, öz bileşimler

ϵ > 0

$\epsilon>0$ , gerçekten başka seçeneği yok

U, V

$U,V$ öyle ki

U \approx V

$U\approx V$

Şimdi, bu içgörü SVD'ye son derece hassas bir şekilde uygulayarak, yazalım $M_{0}=U_{0}\Sigma_{0}V_{0}^{T}$ matrisiniz olarak float64 hassas ve $M_{\epsilon}=U_{\epsilon}\Sigma_{\epsilon}V_{\epsilon}^{T}$ aynı matrisle aynı float32hassasiyette. SVD'lerin kendilerinin kesin olduğunu varsayarsak, o zaman tekil değerler $\Sigma_{0},\Sigma_{\epsilon}$ küçük bir sabit faktörden daha fazla farklılık göstermemelidir. $\epsilon\approx10^{-7}$ , ancak tekil vektörler $U_{0},U_{\epsilon}$ ve $V_{0},V_{\epsilon}$ keyfi olarak büyük miktarda farklılık gösterebilir. Dolayısıyla, gösterildiği gibi, SVD'yi tekil vektörler anlamında "kararlı" hale getirmenin bir yolu yoktur.

— Richard Zhang
kaynak

Bu örnek aşağıdakilerden midir : users.math.msu.edu/users/markiwen/Teaching/MTH995/Papers/… ?

— 1717'de

Harika bir referans. Bilmiyorum, bu özel örneği yıllar önce matematik dersinde öğrendim :-)

— Richard Zhang