Çekirdek Yoğunluğu Tahmini yapılırken Epanechnikov çekirdeği teorik olarak en uygunsa neden daha sık kullanılmıyor?


18

Çekirdek yoğunluk tahmini yaparken en azından teorik anlamda Epanechnikov çekirdeğinin en uygun olduğunu okudum (örneğin burada ). Bu doğruysa, Gaussian neden yoğunluk kestirimi kitaplıklarında varsayılan çekirdek kadar ya da çoğu durumda tek çekirdek kadar sık ​​görünür?


2
Burada iki soru vardı: neden daha sık kullanılmıyor? neden Gauss genellikle varsayılan / tek çekirdektir? Kulağa önemsiz gelebilir, ancak Epanechnikov adının o dilde akıcı olmayan insanlar için doğru bir şekilde yazılması ve telaffuz edilmesi zor görünebilir. (E.'nin Rus olduğundan bile emin değilim; herhangi bir biyografik detay bulamadım.) Ayrıca, eğer bir biweight (eğer) bir kilo verirseniz, çan şekli, sonlu genişliği ve kenarlardaki davranışı hakkında yorum yaparsanız, satmak daha kolay. Stapan'da Epanechnikov varsayılan değerdir kdensity.
Nick Cox

3
Bu teorik tercihin pratikte pratikte çok az etkisi olduğunu da ekleyeceğim.
Xi'an

2
Bu tanıdık bir isim. Sonlu desteği olmayan bir çekirdek kullanmak mantıklıysa, onu tercih etmelisiniz. Deneyimlerime göre, mantıklı değil, bu yüzden seçim teknik değil sosyal görünüyor.
Nick Cox

2
@NickCox, evet, E bir Rus ahbapıydı, bu bir kısaltma değil :) Gizemli bir insandı, bu onun hakkında bulabildiğin tek şey. Ayrıca adı ile birinin programlanabilir hesap makinelerine yazdığı çok faydalı bir kitabı hatırlıyorum , evet, o zamanlar büyük bir şeydi
Aksakal

1
@amoeba Институт радиотехники и электроники Российской Академии Наук им. Котельникова, Eminim o gizli araştırma yaptı, tam adı Епанечников Виктор Александрович
Aksakal

Yanıtlar:


7

Epanechnikov çekirdeğinin teorik olarak optimum olması için evrensel olarak kullanılmamasının nedeni, Epanechnikov çekirdeğinin aslında teorik olarak optimal olmaması olabilir . Tsybakov, Epanechnikov çekirdeğinin Parametrik Olmayan Kestirime Giriş ( s.14-19), s. 16-19 .

Özetlemek gerekirse, çekirdek K ve sabit yoğunluk p üzerindeki bazı varsayımlar altında , ortalama entegre kare hatasının,

(1)1nhK2(u)du+h44SK2(p(x))2dx.

Tsybakov'un ana eleştirisi, negatif olmayan çekirdeklere göre en aza indirgeniyor gibi görünüyor, çünkü negatif olmayan çekirdeklerle kısıtlanmadan, negatif olmayan bile daha iyi performans gösteren tahminciler elde etmek çoğu zaman mümkündür.

Epanechnikov çekirdeği için argümanın ilk adımı, K için "en uygun" bant genişliğini elde etmek için h üzerinde (1) ve negatif olmayan tüm çekirdeklerde (daha geniş bir sınıfın tüm çekirdekleri yerine ) en aza indirilmesiyle başlar.hK

hMISE(K)=(K2nSK2(p)2)1/5

ve "optimal" çekirdek (Epanechnikov)

K(u)=34(1u2)+

ortalama entegre kare hatası olan:

hMISE(K)=(15n(p)2)1/5.

Bununla birlikte, bunlar bilgiye bağlı olduklarından uygulanabilir seçenekler değildir ( p bilinmeyen yoğunluk arasında) p oracle "miktarları - bu nedenle bunlar".

Tsybakov tarafından verilen bir öneri, Epanechnikov kehaneti için asimtotik MISE'nin:

(2)limnn4/5Ep(pnE(x)p(x))2dx=34/551/54((p(x))2dx)1/5.

Tsybakov, (2) 'nin genellikle elde edilebilecek en iyi MISE olduğu iddia edilir, ancak daha sonra her ε > 0 için çekirdek tahmin edicileri oluşturmak için 2. sıradaki çekirdekleri (bunun için SK=0 ) kullanabileceğini gösterir.ε>0

lim supnn4/5Ep(p^n(x)p(x))2dxε.

Olsa da p , n , bir hala olumlu bir parçası tahmincisi için aynı sonucu zorunlu olmayan negatif sahip değildir s + n : = maks ( 0 , p , n ) bile negatif olmayan olması sağlanır (p^npn+:=max(0,p^n)K ) değildir:

lim supnn4/5Ep(pn+(x)p(x))2dxε.

Bu nedenle, için ε yeterince küçük, orada mevcut gerçek tahmin edicileri Epanechnikov daha küçük asimptotik mise sahip kahin bile, bilinmeyen yoğunluk aynı varsayımları kullanarak p .

Özellikle, sonuç olarak, tüm çekirdek tahmin edicileri (veya çekirdek tahmin edicilerinin pozitif kısımları) üzerinde sabit bir p için asimtotik MISE değerinin azami değeri 0 . Bu nedenle Epanechnikov kehaneti, gerçek tahmincilerle karşılaştırıldığında bile optimal olmaya yakın değildir.

İnsanların Epanechnikov kehaneti için argümanı ilk etapta ilerletmelerinin nedeni, yoğunluğun kendisinin negatif olmadığı için genellikle çekirdeğin kendisinin negatif olmaması gerektiğini savunmasıdır. Ancak Tsybakov'un belirttiği gibi, negatif olmayan yoğunluk tahmincileri elde etmek için çekirdeğin negatif olmadığını varsaymak zorunda değildir ve diğer çekirdeklere izin vererek, (1) oracles olmayan negatif olmayan yoğunluk tahmincileri olabilir ve (2) sabit bir p için keyfi olarak Epanechnikov kehanetinden daha iyi performans gösterir . Tsybakov bu tutarsızlığı, sabit bir açıdan iyimserliği savunmanın mantıklı olmadığını iddia etmek için kullanır.p, sadece birsınıftatekdüze olan iyimserlik özellikleriyoğunluğu. Ayrıca, argümanın MSE yerine MSE kullanılırken hala işe yaradığına dikkat çekiyor.

DÜZENLEME: Ayrıca bkz. Sonuç 1.1. s.25'te, Epanechnikov çekirdeğinin başka bir kritere dayanılarak kabul edilemez olduğu gösterilmiştir. Tsybakov gerçekten Epanechnikov çekirdeğini sevmiyor gibi görünüyor.


4
İlginç bir okuma için +1, ancak bu Gauss çekirdeğinin neden Epanechnikov çekirdeğinden daha sık kullanıldığını cevaplamıyor: ikisi de negatif değil.
amip diyor Reinstate Monica

@amoeba Bu doğru. En azından bu, sadece Epanechnikov çekirdeği ile ilgili başlıktaki soruya cevap veriyor. (Yani sorunun öncülüne hitap eder ve bunun yanlış olduğunu gösterir.)
Chill2Macht

3
(+1) Tsybakov'un muhtemelen olumsuz bir çekirdek tahmininin pozitif kısmını alma şemasına dikkat etmem gereken bir şey - ki en azından benim önerim anılarımdır - sonuçta ortaya çıkan yoğunluk tahmincisinin MSE'nin gerçek yoğunluğa daha iyi yakınsamasını verebilmesine rağmen , yoğunluk tahmini genel olarak geçerli bir yoğunluk olmayacaktır (kütleyi azalttığınızdan ve artık 1 ile bütünleşmediğinden). Eğer varsa aslında sadece MSE umurumda farketmez, ama bazen bu önemli bir sorun olacaktır.
Dougal

2

Gauss çekirdeği, örneğin türevler aracılığıyla yoğunluk tahmininde kullanılır:

difdxi(x)1bandwidthj=1Ndikdxi(Xj,x)

This is because the Epanechnikov kernel has 3 derivatives before it's identically zero, unlike the Gaussian which has infinitely many (nonzero) derivatives. See section 2.10 in your link for more examples.


2
The first derivative of the Epanechnikov (note the second n, by the way) kernel is not continuous where the function crosses the kernel's own bounds; that might be more of an issue.
Glen_b -Reinstate Monica

@Glen_b: You're probably right, although having 0 derivatives after some i would be silly too.
Alex R.

1
@AlexR. While what you say is true, I don't understand how it explains why the Gaussian is so common in ordinary density estimation (as opposed to estimating the derivative of the density). And even when estimating derivatives, section 2.10 suggests that the Gaussian is never the preferred kernel.
John Rauser

@JohnRauser: Keep in mind that you need to use higher order Epanechnikov kernels for optimality. Usually people use a Gaussian because it's just easier to work with and has nicer properties.
Alex R.

1
@AlexR I'd quibble on "[u]sually people use a Gaussian"; do you have any systematic data on frequency of use or this is just an impression based on work you see? I see biweights often, but I wouldn't claim more than that.
Nick Cox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.