Belirsizlikleri içeren çekirdek yoğunluğu tahmini


12

Tek boyutlu verileri görselleştirirken, yanlış seçilmiş çöp gözlerini hesaba katmak için Çekirdek Yoğunluğu Tahmini tekniğini kullanmak yaygındır.

Tek boyutlu veri kümemde ölçüm belirsizlikleri olduğunda, bu bilgileri dahil etmenin standart bir yolu var mı?

Örneğin (ve anlayışım safsa beni affet) KDE, Gauss profilini, gözlemlerin delta fonksiyonları ile birleştirir. Bu Gauss çekirdeği her konum arasında paylaşılır, ancak Gaussian parametresi ölçüm belirsizliklerine uyacak şekilde değiştirilebilir. Bunu yapmanın standart bir yolu var mı? Belirsiz değerleri geniş çekirdeklerle yansıtmayı umuyorum.σ

Bunu sadece Python'da uyguladım, ancak bunu gerçekleştirmek için standart bir yöntem veya işlev bilmiyorum. Bu teknikte herhangi bir sorun var mı? Bazı tuhaf görünümlü grafikler verdiğini unutmayın! Örneğin

KDE karşılaştırması

Bu durumda, düşük değerler daha büyük belirsizliklere sahiptir, bu nedenle geniş düz çekirdekler sağlama eğilimi gösterirken, KDE düşük (ve belirsiz) değerleri aşırı ağırlaştırır.


Kırmızı eğrilerin değişken genişlikli gausslar ve yeşil eğrilerin toplamı olduğunu mu söylüyorsunuz? (Bu grafiklerden mantıklı görünmüyor.)
whuber

Her gözlem için ölçüm hatasının ne olduğunu biliyor musunuz?
Aksakal

@ kırmızı eğriler değişken genişlikli gaussianlardır ve mavi eğri toplamlarıdır. Yeşil eğri, sürekli genişliğe sahip
Simon Walker

@Aksakal evet, her ölçümün farklı bir belirsizliği var
Simon Walker

Bir yan sorun, ancak Gauss çekirdeklerini kullandığınız çekirdek yoğunluğu tahmininin bir tanımı değil. Bazı çekirdekler diğerlerinden daha mantıklı veya yararlı olsa da, 1'e entegre etmek istediğiniz herhangi bir çekirdeği kullanabilirsiniz ....
Nick Cox

Yanıtlar:


6

Genişlikleri değiştirmek mantıklıdır, ancak çekirdek genişliğini belirsizlikle eşleştirmek gerekmez.

Gözlemlerin esas olarak belirsizliği olmayan rastgele değişkenlerle uğraşırken bant genişliğinin amacını düşünün (yani bunları tam olarak yeterince yakın gözlemleyebileceğiniz yerlerde) - buna rağmen, kde sıfır bant genişliği kullanmayacaktır, çünkü bant genişliği gözlemdeki belirsizlikten ziyade dağılımdaki değişkenlik (yani 'gözlem içi' belirsizlik değil, 'gözlem-içi' varyasyon).

Sahip olduğunuz şey aslında her gözlem için farklı olan ek varyasyon kaynağıdır ('gözlem-belirsizlik yok' vakası üzerinden).

İlk adım olarak, "verilerde belirsizlik olması durumunda kullanacağım en küçük bant genişliği nedir?" ve o bant genişliğinin karelerinin ve gözlem belirsizliği için toplamının kare kökü olan yeni bir bant genişliği yapın .σi

Soruna bakmanın alternatif bir yolu, her bir gözlemi küçük bir çekirdek olarak (gözlemin nerede olabileceğini temsil edecek şekilde yaptığınız gibi) tedavi etmek, ancak normal (kde-) çekirdeği (genellikle sabit genişlikli, ancak gözlem-belirsizlik çekirdeği ile olmak zorunda değildir ve daha sonra birleşik yoğunluk tahmini yapar. (Bunun aslında yukarıda önerdiğimle aynı sonuç olduğuna inanıyorum.)


2

Değişken bant genişliği çekirdek yoğunluğu tahmin edicisini uygularım, örneğin dekonvolüsyon çekirdek yoğunluğu tahmin kağıdı için yerel bant genişliği seçicileri , ölçüm hatası dağılımı bilindiğinde adaptif pencere KDE'yi oluşturmaya çalışır. Hata farkını bildiğinizi belirttiniz, bu nedenle bu yaklaşım sizin durumunuz için geçerli olmalıdır. Kirlenmiş bir numuneye benzer yaklaşımla ilgili başka bir makale: KONTAMİNE ÖRNEKTEN KERNEL YOĞUNLUĞU TAHMİNDE BOOTSTRAP BANT GENİŞLİĞİ SEÇİMİ



Bu çözümler harika görünüyor! bunları uygulayan bir kod biliyor musunuz?
Adi Ro

@AdiRo, bozuk bağlantıyı düzelttim.
Aksakal

0

David W. Scott, 1992, Wiley tarafından "Çok Değişkenli Yoğunluk Tahmini: Teori, Uygulama ve Görselleştirme" bölüm 6'ya danışabilirsiniz.

Tek değişkenli durumda (s 130-131), bant genişliği seçimi için normal referans kuralını türetir: burada boyutunuzdaki sapmadır, veri miktarıdır ve bant genişliğidir ( sorunuzda kullandınız , bu yüzden gösterimle karıştırmayın).σ n h σ

h=(4/3)1/5σn1/5(6.17)
σnhσ

Kullandığı genel KDE notasyonu: burada Çekirdek işlevidir.K()

f^(x)=1nhi=1nK(xxih)
K()

0

Aslında, önerdiğiniz yöntemin Geo-science'de yaygın olarak kullanıldığı gibi Olasılık Yoğunluğu Grafiği (PDP) olarak adlandırıldığını düşünüyorum, https://www.sciencedirect.com/science/article/pii/S0009254112001878

Bununla birlikte, yukarıdaki makalede belirtildiği gibi dezavantajlar vardır. Ölçülen hatalar küçükse, PDF'de sonunda aldığınız artışlar olacaktır. Ama aynı zamanda PDP'yi tıpkı KDE'nin yolu gibi, @ Glen_b ♦ 'ın bahsettiği gibi düzeltebilir

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.