Bir M tahmincisinin ampirik Hessyanı belirsiz olabilir mi?


15

Jeffrey Wooldridge, Kesit ve Panel Verilerinin Ekonometrik Analizinde (sayfa 357), ampirik Hessian'ın "birlikte çalıştığımız örnek için pozitif kesin, hatta pozitif semidefinit olması garanti edilmediğini" söylüyor.

Hessian, M-tahmin edicisinin, verilen örnek için objektif fonksiyonu en aza indiren parametrenin değeri olarak tanımlanması sonucunda Hessian'ın pozitif semidefinit olması gerektiği için benim için yanlış görünüyor. (yerel) minimumda Hessian pozitif semidefinittir.

Benim iddiam doğru mu?

[EDIT: İfade 2. baskıda kaldırıldı. kitabın. Yoruma bakın.]

ARKA PLAN Varsayalım ki θ N minimize ederek elde edilen bir tahmin olup 1θ^NWibelirtmektediri-inci gözlem.

1Ni=1Nq(wi,θ),
wii

Diyelim Hessian ifade q göre H ,

H(q,θ)ij=2qθiθj

Asimptotik kovaryans İçeride ISTV melerin RWMAIWi'ninθ^n içerenE[H(q,θ0)] buradaθ0 gerçek parametre değeridir. Bunu tahmin etmenin bir yolu ampirik Hesssian'ı kullanmaktır

H^=1Ni=1NH(wi,θ^n)

Bu kesinlik olduğu H söz konusu.H^


1
@Jyotirmoy, minimum parametre alanınızın sınırında olursa ne olur?
kardinal

@cardinal. Haklısın, benim argümanım bu durumda çalışmaz. Ancak Wooldridge, minimumun iç mekanda olduğu durumu düşünüyor. Bu durumda yanlış değil mi?
Jyotirmoy Bhattacharya

@Jyotirmoy, kesinlikle sadece olumlu semidefinite olabilir. Doğrusal işlevleri veya minimum nokta kümesinin dışbükey bir politop oluşturduğu bir işlevi düşünün. Daha basit bir örnek için, herhangi bir polinom dikkate f(x)=x2n de . x=0
kardinal

1
@cardinal. Doğru. Beni rahatsız eden, alıntı yapılan ifadede "hatta pozitif semidefinite" ifadesidir.
Jyotirmoy Bhattacharya

@Jyotirmoy, kitapta verebileceğiniz belirli bir M tahmincisi formu var mı? Ayrıca, dikkate alınan parametre boşluğunu da verin. Belki o zaman yazarın aklında ne olduğunu bulabiliriz. Genel olarak, yazarın iddiasının doğru olduğunu zaten belirledik. şeklinde veya dikkate alınan parametre boşluğuna başka kısıtlamalar koymak bunu değiştirebilir. q
kardinal

Yanıtlar:


16

Bence sen haklısın. Argümanınızı özüne damlatalım:

  1. fonksiyonu minimizeQolarak tanımlanırQθ^NQQ(θ)=1Ni=1Nq(wi,θ).

  2. , Q'nun Hessili olsun , H ( θ )HQH(θ)=2Qθiθj tanımı ve bu da, farklılaşma doğrusallığı ile, eşittir .1Ni=1NH(wi,θn)

  3. Varsayarsak θ N etki iç yalan Q , daha sonra H (θ^NQyarı tanımlı pozitif olmalıdır.H(θ^N)

Bu sadece fonksiyonu ile ilgili bir ifadedir : q'nun nasıl tanımlandığı sadece bir oyalamadır, ancak q'nun varsayılan ikinci farklılaşabilirliği hariçQq ikinci argümanına ( ) göre Q'nun ikinci mertebeden farklılaşmasını garanti ettiği .θQ


M tahmincilerini bulmak zor olabilir. @Mpiktas tarafından sağlanan bu verileri göz önünde bulundurun:

{1.168042, 0.3998378}, {1.807516, 0.5939584}, {1.384942, 3.6700205}, {1.327734, -3.3390724}, {1.602101, 4.1317608}, {1.604394, -1.9045958}, {1.124633, -3.0865249}, {1.294601, -1.8331763},{1.577610, 1.0865977}, { 1.630979, 0.7869717}

R, prosedür M-tahmincisi bulmak için çözeltisi üretilir ( c 1 , c 2 ) = ( - 114,91316 , - 32,54386 )q((x,y),θ)=(yc1xc2)4(c1,c2)(114.91316,32.54386) . Bu noktada objektif fonksiyonun değeri ( ortalaması ) 62.3542'ye eşittir. İşte uyumun bir çizimi:q

Fit 1

İşte bu uyumun bir mahallesindeki (log) objektif fonksiyonun bir çizimi:

Objective 1

Burada bir şey balık: uyum parametreleri, verileri simüle etmek için kullanılan parametrelerden çok uzak (yakın )azından görünmüyoruz: eğimli olan son derece sığ bir vadideyiz her iki parametrenin daha büyük değerlerine doğru:(0.3,0.2)

Objective 1, 3D view

Hessian'ın bu noktada olumsuz belirleyicisi, bunun yerel bir minimum olmadığını doğrulamaktadır ! Bununla birlikte, z ekseni etiketlerine baktığınızda, bu işlevin tüm bölge içinde beş basamaklı bir hassasiyetle düz olduğunu görebilirsiniz , çünkü sabit bir 4.1329'a (62.354 logaritması) eşittir. Bu muhtemelen R işlevi minimizerini (varsayılan toleranslarıyla) minimum değere yakın olduğu sonucuna götürdü.

Aslında, çözüm bu noktadan uzaktır. Bulabildiğinden emin olmak için, Mathematica'da sayısal sayısal ama çok etkili " Ana Eksen " yöntemini kullandım ve olası sayısal problemlerden kaçınmak için 50 basamaklı hassasiyet (taban 10) kullandım. Minimum yakın ( c 1 , c 2 ) = ( 0.02506 , 7.55973 ) bulur(c1,c2)=(0.02506,7.55973) fonksiyonunun 58.292655 değerine sahip olduğu bulur: R tarafından bulunan "minimum" değerin yaklaşık% 6 daha küçüktür. ama eliptik konturlarla c 2'yi abartarak gerçek bir minimum gibi görünebilirimc2 çizimdeki yön:

Objective 2

Konturlar ortada 58.29266 ile köşelerde (!) 58.29284'e kadar değişir. İşte 3D görünüm (yine günlük hedefinin):

Objective 2, 3D view

Burada Hessian pozitiftir: özdeğerleri 55062.02 ve 0.430978'dir. Dolayısıyla bu nokta yerel bir minimumdur (ve muhtemelen küresel bir minimumdur). İşte karşılık gelen uyum:

Fit 2

Bence diğerinden daha iyi. Parametre değerleri kesinlikle daha gerçekçi ve bu eğriler ailesiyle daha iyisini yapamayacağımız açık.

Bu örnekten çıkarabileceğimiz faydalı dersler var:

  1. Sayısal optimizasyon, özellikle doğrusal olmayan bağlantı ve karesel olmayan kayıp fonksiyonları ile zor olabilir. Bu nedenle:
  2. Sonuçları aşağıdakiler de dahil olmak üzere mümkün olduğunca çok kontrol edin:
  3. Amaç işlevini mümkün olduğunca grafik olarak çizin.
  4. Sayısal sonuçlar matematiksel teoremleri ihlal ediyor gibi göründüğünde, son derece şüpheli olun.
  5. İstatistiksel sonuçlar şaşırtıcı olduğunda - R kodu tarafından döndürülen şaşırtıcı parametre değerleri gibi - ekstra şüpheli olun.

+1, güzel analiz. Bence Wooldridge bu sözleri içeriyor. Kendirin sınırsız olacağı bazı örnekleri düşünmenin hala mümkün olduğunu düşünüyorum. Yapay olarak parametre alanını kısıtlamak. Bu örnekte parametre alanı tüm düzlemdir, bu nedenle yerel minimum yarı pozitif kendir verecektir. Bence soru üzerine onun almak almak için Wooldridge güzel bir e-posta yazmak için zaman geldi :)
mpiktas

@mpiktas Evet, iç küresel bir minimumun belirsiz bir Hessian olduğu ancak tüm parametrelerin tanımlanabilir olduğu problemler olduğuna eminim . Ancak yeterince düzgün bir iç küresel minimumda Hessian'ın belirsiz olması mümkün değildir. Milnor'ın Topolojisinde Diferansiyellenebilir Bir Bakış Açısı gibi bu tür şeyler tekrar tekrar kanıtlanmıştır . Wooldridge'in hatalı sayısal "çözümler" tarafından yanlış yönlendirilmiş olabileceğinden şüpheleniyorum. (Alıntılanan sayfadaki yazım hataları, bu arada aceleyle yazıldığını gösterir.)
whuber

sınırda bile kendir pozitif olacak mı? Kitabı kontrol edeceğim, bu alanda gerçekten fazla bilgi sahibi olmadığımı görüyorum. Klasik teoremler çok basit, bu yüzden çok karmaşık başka bir şey olmaması gerektiğini varsaydım. Bu, soruyu cevaplamakta çok zorlanmamın nedenlerinden biri olabilir.
mpiktas

@mpiktas Sınırda Hessen mutlaka tanımlanmayacak . Fikir şudur: Jacobian / Hessian / ikinci türev matrisi kritik bir noktada tanımlanırsa, bir mahallede işlev bu matris tarafından belirlenen ikinci dereceden form gibi davranır. Matris pozitif varsa ve negatif özdeğerleri, fonksiyon gerekir bazı yönlerde artırmak ve diğerlerinde azalma: Bir yerel ekstrem olamaz. @Jyotirmoy bu temel özellik ile çelişiyor gibi görünüyor tırnak hakkında endişe budur.
whuber

Çok güzel analiz için hem siz hem de @mpiktas'a teşekkür ederiz. Wooldridge'in sayısal zorlukları tahmin edenin teorik özellikleriyle karıştırdığı konusunda hemfikirim. Bakalım başka cevap var mı?
Jyotirmoy Bhattacharya

7

θ^N

minθΘN1i=1Nq(wi,θ)

Çözüm θ^NΘH^ ), yarı-tanımlı pozitiftir.

N1i=1Nq(wi,θ)θ0

minθΘEq(w,θ).

N1i=1Nq(wi,θ)Θ

Ayrıca Wooldridge kitabında, Hessian'ın sayısal olarak kesin olarak kesin olması garanti edilen tahminlerine bir örnek veriyor. Pratikte Hessian'ın pozitif olmayan kesinliği, çözümün ya sınır noktasında olduğunu ya da algoritmanın çözümü bulamadığını göstermelidir. Bu genellikle, takılan modelin belirli bir veri için uygun olmayabileceğinin başka bir göstergesidir.

İşte sayısal örnek. Doğrusal olmayan en küçük kareler problemi üretiyorum:

yi=c1xic2+εi

X[1,2]εσ2set.seed(3)xiyi

Her zamanki doğrusal olmayan en küçük kareler objektif fonksiyonunun objektif fonksiyon karesini seçtim:

q(w,θ)=(yc1xic2)4

Fonksiyonu, gradyanını ve kendirini optimize etmek için R'deki kod.

##First set-up the epxressions for optimising function, its gradient and hessian.
##I use symbolic derivation of R to guard against human error    
mt <- expression((y-c1*x^c2)^4)

gradmt <- c(D(mt,"c1"),D(mt,"c2"))

hessmt <- lapply(gradmt,function(l)c(D(l,"c1"),D(l,"c2")))

##Evaluate the expressions on data to get the empirical values. 
##Note there was a bug in previous version of the answer res should not be squared.
optf <- function(p) {
    res <- eval(mt,list(y=y,x=x,c1=p[1],c2=p[2]))
    mean(res)
}

gf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res <- sapply(gradmt,function(l)eval(l,evl))
    apply(res,2,mean)
}

hesf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res1 <- lapply(hessmt,function(l)sapply(l,function(ll)eval(ll,evl)))
    res <- sapply(res1,function(l)apply(l,2,mean))
    res
}

İlk önce bu gradyan ve kendirin reklamı yapılan şekilde çalıştığını test edin.

set.seed(3)
x <- runif(10,1,2)
y <- 0.3*x^0.2

> optf(c(0.3,0.2))
[1] 0
> gf(c(0.3,0.2))
[1] 0 0
> hesf(c(0.3,0.2))
     [,1] [,2]
[1,]    0    0
[2,]    0    0
> eigen(hesf(c(0.3,0.2)))$values
[1] 0 0

xy

> df <- read.csv("badhessian.csv")
> df
          x          y
1  1.168042  0.3998378
2  1.807516  0.5939584
3  1.384942  3.6700205
4  1.327734 -3.3390724
5  1.602101  4.1317608
6  1.604394 -1.9045958
7  1.124633 -3.0865249
8  1.294601 -1.8331763
9  1.577610  1.0865977
10 1.630979  0.7869717
> x <- df$x
> y <- df$y
> opt <- optim(c(1,1),optf,gr=gf,method="BFGS")  
> opt$par
[1] -114.91316  -32.54386
> gf(opt$par)
[1] -0.0005795979 -0.0002399711
> hesf(opt$par)
              [,1]         [,2]
[1,]  0.0002514806 -0.003670634
[2,] -0.0036706345  0.050998404
> eigen(hesf(opt$par))$values
[1]  5.126253e-02 -1.264959e-05

Gradyan sıfırdır, ancak kendir pozitif değildir.

Not: Bu benim üçüncü cevap verme girişimim. Umarım nihayet önceki sürümlerde kaçındığım kesin matematiksel ifadeler vermeyi başardım.


wyxw=(x,y)ym(x,θ)m(x,θ)

@mpiktas, ben değilim oldukça nedeniyle ifadeler için ilk cümle yorumlamak nasıl emin. İki yol görebiliyorum, biri doğru diyecektim, diğeri de değil. Ayrıca, kesinlikle, ilk paragrafınızdaki ikinci cümleyi kabul etmiyorum. Yukarıda gösterdiğim gibi, Hessian'ın pozitif kesinliği olmadan parametre alanının iç kısmında yerel bir minimumda olmak mümkündür.
kardinal

wyxw=(x,y)

@cardinal, ifadelerimi düzelttim. Şimdi iyi olmalı. Sorunu belirttiğiniz için teşekkürler.
mpiktas

@mptikas. Ne Wooldridge ne de Hessian'ın her yerde pozitif kesin olması gerektiğini iddia etmiyoruz. Benim iddiam, bir iç maksimum için ampirik Hessian'ın maksimum seviyeye ulaşan pürüzsüz bir fonksiyonun gerekli bir koşulu olarak pozitif semidefinit olması gerektiğidir. Wooldridge farklı bir şey söylüyor gibi görünüyor.
Jyotirmoy Bhattacharya

3

Kendir bir eyer noktasında belirsizdir. Bu, parametre alanının iç kısmındaki tek durağan nokta olabilir.

Güncelleme: Ayrıntıya gireyim. İlk olarak, deneysel Hessian'ın her yerde var olduğunu varsayalım.

θ^niq(wi,)(1/N)iH(wi,θ^n)θ^niq(wi,)θ^n.

Karışıklıkların bir kaynağı, bir M-tahmin edicisinin "çalışan" tanımı olabilir. Prensip olarak bir M-tahmincisi şu şekilde tanımlanmalıdır:argminθΣbenq(wben,θ), aynı zamanda denkleme bir çözüm olarak da tanımlanabilir

0=Σbenq˙(wben,θ),
nerede q˙ 'nin gradyanı q(w,θ) göre θ. Buna bazenΨtipi. İkinci durumda, bu denklemin bir çözümünün yerel bir minimum olması gerekmez. Bu bir eyer noktası olabilir ve bu durumda Hessian belirsiz olacaktır.

Pratik olarak konuşursak, neredeyse tekil veya kötü durumda olan olumlu bir kesin Hessian bile, tahmin edicinin zayıf olduğunu ve varyansını tahmin etmekten daha fazla endişelenmeniz gerektiğini gösterecektir.


could you adapt your answer so that it matches the notation of the question? To what is x2y2 referring? Where does this get inserted into the equations given in the question?
probabilityislogic

+1 Güncellemedeki iyi noktalar, özellikle son paragraf. Hessian - bu tartışma boyunca dolaylı olarak varsayıldığı gibi - mevcut olduğunda, kişi herhangi bir kritik noktayı test etme kriterlerinden biri olarak pozitif tanımını otomatik olarak kullanacaktır ve bu nedenle bu sorun ortaya çıkamamıştır. Bu beni Wooldridge teklifinin Hessian'ı sadece kritik bir noktada değil, varsayılan bir küresel minimumla ilgilendirmesi gerektiğine inandırıyor.
whuber

1

Hessian'ın yerel minimumda pozitif (yarı) belirli olması gerekip gerekmediği konusunda bu iş parçacığında çalı çevresinde çok fazla darbe oldu. Bu konuda net bir açıklama yapacağım.

Nesnel işlev ve tüm kısıtlama işlevlerinin iki kez sürekli olarak ayırt edilebilir olduğu varsayılırsa, o zaman herhangi bir yerel minimumda, aktif kısıtlamaların Jacobian'ın sıfır boşluğuna yansıtılan Lagrangian Hessianı pozitif semidefinite olmalıdır. Yani, eğerZ aktif kısıtlamaların Jacobian'ın sıfır alanı için bir temel oluşturur, ZT*(Lagünce Kendir)*Zpozitif semidefinite olmalıdır. Bu, katı bir yerel minimum değer için pozitif kesin olmalıdır.

Dolayısıyla, kısıtlı bir problemde aktif kısıtlama (lara) sahip olan nesnel fonksiyonun Hessianının, aktif kısıtlamalar varsa pozitif semidefinite olması gerekmez.

Notlar:

1) Aktif kısıtlamalar tüm eşitlik kısıtlamaları ile eşitlikten memnun olan eşitsizlik kısıtlamalarından oluşur.

2) See the definition of the Lagrangian at https://www.encyclopediaofmath.org/index.php/Karush-Kuhn-Tucker_conditions .

3) If all constraints are linear, then the Hessian of the Lagrangian = Hessian of the objective function because the 2nd derivatives of linear functions are zero. But you still need to do the projection jazz if any of these constraints are active. Note that lower or upper bound constraints are particular cases of linear inequality constraints. If the only constraints which are active are bound constraints, the projection of the Hessian into the null space of the Jacobian of active constraints amounts to eliminating the rows and columns of the Hessian corresponding to those components on their bounds.

4) Because Lagrange multipliers of inactive constraints are zero, if there are no active constraints, the Hessian of the Lagrangian = the Hessian of the objective function, and the Identity matrix is a basis for the null space of the Jacobian of active constraints, which results in the simplification of the criterion being the familiar condition that the Hessian of the objective function be positive semidefinite at a local minimum (positive definite if a strict local minimum).


0

The positive answers above are true but they leave out the crucial identification assumption - if your model is not identified (or if it is only set identified) you might indeed, as Wooldridge correctly indicated, find yourself with a non-PSD empirical Hessian. Just run some non-toy psychometric / econometric model and see for yourself.


Because this does not seem mathematically possible, could you offer a simple, clear example to demonstrate how the Hessian of a continuously twice-differentiable objective function could possibly fail to be PSD at a global minimum?
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.