Verilerin olasılık dağılımını tahmin etmek için parametrik olmayan farklı yöntemler


10

Bazı verilerim var ve ona düzgün bir eğri uydurmaya çalışıyordum. Bununla birlikte, bu konuda çok fazla önceki inanç veya çok güçlü ön kavrayışlar (sorumun geri kalanında ima edilenler hariç) veya belirli dağıtımlar uygulamak istemiyorum.

Sadece pürüzsüz bir eğriye uydurmak istedim (veya gelebilecek olasılık dağılımını iyi bir şekilde tahmin etmek istedim). Bunu yapmak için bildiğim tek yöntem çekirdek yoğunluğu tahminidir (KDE). İnsanlar böyle bir şeyi tahmin etmenin başka yöntemlerini bilip bilmediklerini merak ediyordum. Sadece bir liste istedim ve hangisini kullanmak istediğimi bulmak için kendi araştırmamı yapabilirim.

Herhangi bir bağlantı veya iyi referans (veya hangilerinin iyi olduğu sezgileri) vermek her zaman bekler (ve teşvik edilir)!


3
" Ben daha önce buna inanmak istemedim " - o zaman pürüzsüz, hatta sürekli olduğunu varsayamazsınız (bunlar önceki inançlar olurdu). Bu durumda ecdf sizin tek başvurunuzla ilgilidir.
Glen_b

1
İnancım güçlü olmak, sorumu ifade etmenin daha iyi bir yolu olmak. Demek istediğim, Bernoulli ya da kısıtlayıcı olabilecek bir şey demek istemiyorum. Ecdf'nin btw olduğunu bilmiyorum. İyi bir öneriniz veya öneri listeniz varsa, göndermekten çekinmeyin.
Pinokyo

Sorumu güncelledim. Bu daha iyi mi? Daha açık? Bu arada soruma doğru bir cevap yok, sadece iyi ve daha az yararlı olanlar. :)
Pinokyo

2
ecdf = ampirik cdf , üzgünüm. Sadece sorduğunuz soruyu değil, sorduğunuz soruyu cevaplayabiliriz, bu nedenle varsayımlarınızı ifade ederken net olmaya dikkat etmelisiniz.
Glen_b

Normalleştirilmiş bir histogram yoğunluk tahmini olarak görülebilir
Dason

Yanıtlar:


5

Sürekli rasgele değişkenler hakkında konuştuğunuzu belirtmezsiniz, ancak KDE'den bahsettiğinizden beri bunu düşündüğünüzü varsayacağım.

Düzgün yoğunlukların takılması için diğer iki yöntem:

1) log-spline yoğunluk tahmini. Burada kütle yoğunluğuna bir eğri eğri yerleştirilir.

Örnek bir makale:

Kooperberg ve Stone (1991),
"Logspline yoğunluk kestirimi üzerine bir çalışma,"
Hesaplamalı İstatistik ve Veri Analizi , 12 , 327-347

Kooperberg elindeki gazetenin bir pdf için bir bağlantı sağlar burada "1991" altında,.

R kullanırsanız, bunun için bir paket var . Ürettiği bir uyum örneği burada . Aşağıda, burada ayarlanan veri günlüklerinin bir histogramı ve cevaptan logspline ve çekirdek yoğunluğu tahminlerinin çoğaltılması verilmiştir:

log verilerinin histogramı

Logspline yoğunluk tahmini:

logspline çizimi

Çekirdek yoğunluğu tahmini:

çekirdek yoğunluğu tahmini

2) Sonlu karışım modelleri . Burada bazı uygun dağılım ailesi seçilir (birçok durumda normal) ve yoğunluğun o ailenin birkaç farklı üyesinin bir karışımı olduğu varsayılır. Çekirdek yoğunluğu tahminlerinin böyle bir karışım olarak görülebileceğini unutmayın (Gauss çekirdeği ile Gaussianların bir karışımıdır).

Daha genel olarak, bunlar ML veya EM algoritması veya bazı durumlarda moment eşleştirme yoluyla takılabilir, ancak belirli durumlarda başka yaklaşımlar da uygulanabilir.

(Çeşitli karışım modelleme formları yapan çok sayıda R paketi vardır.)

Düzenleme eklendi:

3) Ortalama kaydırılmış histogramlar
(tam anlamıyla pürüzsüz değil, belki de belirtilmemiş ölçütleriniz için yeterince pürüzsüzdür):

Bazı sabit bin genişliklerde bir histogram dizisi hesapladığınızı düşününb), b/k bir tamsayı için kher seferinde ve sonra ortalama. Bu, ilk bakışta bin genişliğinde yapılan bir histograma benziyorb/k, ama çok daha pürüzsüz.

Örneğin, binwidth 1'de 4 histogram hesaplayın, ancak + 0, + 0.25, + 0.5, + 0.75 ile dengeleyin ve ardından herhangi bir verideki yüksekliklerin ortalamasını alın x. Böyle bir şeyle sonuçlanırsınız:

Ortalama kaydırılmış histogram

Diyagram bu cevaptan alınmıştır . Söylediğim gibi, bu çaba düzeyine giderseniz, çekirdek yoğunluğu tahmini de yapabilirsiniz.


Buna eklemek için. Karışım modeli için - Sanırım 2, sonra 3, sonra 4 dağılımın bir karışımını sığdırabilir ve log olabilirliğinde veya böyle bir
şeyde

4

Pürüzsüzlük vb. Varsayımlarla ilgili yukarıdaki yorumlara tabidir. Daha önce Dirichlet işlemiyle karışım modellerini kullanarak Bayes parametrik olmayan yoğunluk tahmini yapabilirsiniz.

Aşağıdaki resim, 'eski sadık' veriler için iki değişkenli normal DP-karışım modelinin MCMC tahmininden elde edilen olasılık yoğunluk hatlarını göstermektedir. Noktalar, son MCMC adımında elde edilen kümelenmeye göre IIRC renklidir.

resim açıklamasını buraya girin

Teh 2010 iyi bir geçmiş sunuyor.


1

Popüler bir seçim rastgele ormandır (" Karar Ormanları: Sınıflandırma, Regresyon, Yoğunluk Tahmini, Manifold Öğrenme ve Yarı Denetimli Öğrenme için Birleştirilmiş Bir Çerçeve " nin beşinci bölümüne bakınız .

Algoritmayı ayrıntılı olarak açıklar ve k-ortalamaları, GMM ve KDE gibi diğer popüler seçeneklere göre değerlendirir. Rastgele Orman R ve scikit-learn'da uygulanır.

Rastgele Orman akıllıca bir şekilde torbalanmış karar ağaçlarıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.