Yoğunluk tahmini nerede yararlıdır?


14

Biraz hafif matematikten geçtikten sonra, çekirdek yoğunluğu tahmininde hafif bir sezgim olduğunu düşünüyorum. Ancak, üçten fazla değişken için çok değişkenli yoğunluğun tahmin edilmesinin, tahmin edicilerinin istatistiksel özellikleri açısından iyi bir fikir olmayabileceğinin de farkındayım.

Öyleyse, ne tür durumlarda parametrik olmayan yöntemler kullanarak iki değişkenli yoğunluğu tahmin etmek istiyorum? İkiden fazla değişken için tahmin yapmak konusunda endişelenmeye başlamak yeterli mi?

Çok değişkenli yoğunluk tahmini uygulamasına ilişkin bazı yararlı bağlantılara işaret edebiliyorsanız, bu harika olurdu.

Yanıtlar:


16

Yoğunluk tahmininin uygulanması için tipik bir durum, sadece tek bir tipte (veya çoğunlukla) veriye sahip olmanız, ancak önemli ölçüde sapma gösteren çok nadir, nitel farklı verilerle ilgilenmeniz olan yenilik tespiti, yani aykırı tespittir. bu yaygın durumlar.

Örnekler sahtekarlık tespiti, sistemlerde arıza tespiti vb. Bunlar, ilgilendiğiniz türde veri toplamanın çok zor ve / veya pahalı olduğu durumlardır. Bu nadir durumlar, yani düşük olma olasılığı olan vakalar.

Çoğu zaman kesin dağılımı doğru bir şekilde tahmin etmekle değil, göreceli oranlarla (belirli bir örneğin gerçek bir aykırı olması ile bir olmama olasılığı ne kadar) tahmin etmekle ilgilenirsiniz.

Konuyla ilgili onlarca öğretici ve inceleme var. Bu bir başlangıç için iyi bir kişi olabilir.

EDIT: bazı insanlar için aykırı algılama için yoğunluk tahmini kullanarak garip görünüyor. Öncelikle bir şey üzerinde anlaşalım: Birisi verilerine bir karışım modeli uyduğunda , aslında yoğunluk tahmini yapıyor. Bir karışım modeli bir olasılık dağılımını temsil eder.

kNN ve GMM aslında birbiriyle ilişkilidir: böyle bir olasılık yoğunluğunu tahmin etmenin iki yöntemidir. Bu, yenilik tespitinde birçok yaklaşım için temel fikir. Örneğin, bu kNN'lere, diğeri Parzen pencerelerine (bu makalenin başlangıcında bu fikri vurgulayan) ve diğerlerine dayanmaktadır .

Bana öyle geliyor ki (ama sadece benim kişisel algım), hepsi olmasa da çoğu bu fikir üzerinde çalışıyor. Anormal / nadir bir olay fikrini başka nasıl ifade edersiniz?


Belirttiğiniz not seti (bölüm 6, "yoğunluk temelli yaklaşım"), aykırı algılamaya yönelik bazı çok ezoterik (ortalama akış ve konu hakkında sessiz gelişmiş literatürden uzak ) yaklaşımları özetlemektedir . Elbette, daha yaygın uygulamalar mevcut olmalıdır.
user603

2
Üzgünüm, yorumunu anlamıyorum. Çok temel iki örnek kNN ve GMM'dir. Bu iki yöntem olasılık yoğunluğu ile ilgili tahminler sağlar ve bu gibi durumlar için kullanılabilir.
jpmuc

Teşekkürler. GMM nedir? KNN'nin aykırı algılamaya ortalama akış yaklaşımı olduğunu düşünmüyorum. Bu bağlamda kullanıldığı sağlam istatistiklerle ilgili yeni bir ders kitabına başvurabilir misiniz? (Slayt algılamasında, aykırı algılama ile ilgili olarak işaret ettiğiniz makalelere baktım ya konferans prosedürleri ya da eski kitaplar gibi görünüyor)
user603

GMM = gauss karışım modeli. Slaytlarda kNN'lere dayalı puanlara atıfta bulunurlar. Şahsen SVM'leri gerçek anlamda tespit etmek için kullandım. Maalesef size somut bir ders kitabı öneremem. Belki bu notlar ( stats.ox.ac.uk/pub/StatMeth/Robust.pdf ) yeterlidir.
jpmuc

1
@ User603 ile kesinlikle katılıyorum. Yoğunluk tahmini ilk bakışta aykırı değerleri bulmaya çalışmanın çok garip ve dolaylı bir yoludur. Bunun pratikte nasıl uygulandığını ve neden işe yaradığını düşündüğünüzü özetleyerek cevabınız daha da zenginleşecektir.
Nick Cox

4

Ortalama kaydırma algoritmasının ( http://en.wikipedia.org/wiki/Mean-shift ) kde'nin verimli ve uygun bir uygulaması için iyi bir örnek olduğunu düşünüyorum. Bu algoritmanın amacı, yoğunluk fonksiyonundan örneklenen veriler verilen yoğunluk fonksiyonunun maksimumunu bulmaktır ve tamamen bir kde modellemesine dayanmaktadır: buradaf h ( x ) x i exp ( - ( x i - x ) T Σ - 1 ( x i - x ) ) , Σ - 1 x i(xi)

fh(x)xiexp((xix)TΣ1(xix)),
Σ1bir kovaryans matrisidir (çoğu zaman tahmin edilir). Bu algoritma, bileşenlerin sayısı bilinmediğinde kümeleme görevlerinde yaygın olarak kullanılır: keşfedilen her mod bir küme sentroididir ve bir moda bir örnek ne kadar yakın olursa, karşılık gelen kümeye ait olma olasılığı o kadar yüksektir (her şey, yeniden yapılandırılmış yoğunluk). Numune verileri tipik olarak bir taneden daha büyük boyuttadır: örneğin, bir 2D renkli görüntü segmentasyonu gerçekleştirmek için numuneler 5d olabilir (RComponent, GComponent, BComponent, xPosition, yPosition).xi

4

Tipik olarak , KDE histogramlara alternatif olarak lanse edilir. Bu bağlamda, KDE'nin histogramlara göre ana avantajı, keyfi olarak seçilen parametrelerin prosedürün görsel çıktısı üzerindeki etkilerini hafifletmektir. Özellikle (ve yukarıdaki bağlantıda gösterildiği gibi), KDE'nin başlangıç ​​ve bitiş noktalarını belirtmesine gerek yoktur.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.