PDF tahmin yöntemlerini değerlendirmenin en iyi yolu


10

Gördüğüm her şeyden daha iyi olduğunu düşündüğüm bazı fikirlerimi test etmek istiyorum. Yanlış olabilirdim ama fikirlerimi test etmek ve şüphelerimi daha kesin gözlemlerle yok etmek istiyorum.

Yapmayı düşündüğüm şey şudur:

  1. Bir dağılım kümesini analitik olarak tanımlar. Bunlardan bazıları Gauss, üniforma veya Tophat gibi kolay olanlar. Ancak bunların bazıları Simpsons dağılımı gibi zor ve zorlayıcı olmalıdır.
  2. Bu analitik dağılımlara dayalı yazılımlar uygulayın ve bunları bazı örnekler oluşturmak için kullanın.
  3. Dağılımlar analitik olarak tanımlandığından, tanımlarına göre gerçek PDF'lerini zaten biliyorum. Bu harika.
  4. Sonra aşağıdaki PDF tahmin yöntemlerini yukarıdaki örneklere göre test edeceğim:
    • Mevcut PDF tahmin yöntemleri (çeşitli çekirdek ve bant genişliklerine sahip KDE gibi).
    • Kendi fikrimce denemeye değer olduğunu düşünüyorum.
  5. Sonra gerçek PDF'lere karşı tahminlerin hatasını ölçeceğim.
  6. O zaman PDF tahmin yöntemlerinden hangisinin iyi olduğunu daha iyi bileceğim.

Sorularım:

  • S1: Yukarıdaki planımda herhangi bir gelişme var mı?
  • S2: Birçok gerçek PDF'yi analitik olarak tanımlamamda zorlanıyorum. Burada tekrar kullanabileceğim çeşitli zorluklarla (çok zor olanlar da dahil) analitik olarak tanımlanmış birçok gerçek PDF'nin kapsamlı bir listesi zaten var mı?

Bu bana Monte Carlo simülasyonu gibi geliyor mu?
Christoph Hanck

Yanıtlar:


2

A2: 1D'de yöntemlerinizi aşağıdaki karşılaştırma ölçütleri üzerinde test edebilirsiniz .


Tam da aradığım şey buydu. Ve evet şu anda ilgi durumum 1D.
caveman

11
  • A1. Bu bana mantıklı bir plan gibi geliyor. Sadece birkaç noktaya değinmek. Farklı hata metrikleriyle test etmek istersiniz (Lp, KL ıraksama vb.), Çünkü yöntemler kayıp fonksiyonuna bağlı olarak farklı performans gösterecektir. Ayrıca, farklı sayıda örneği test etmek isteyeceksiniz. Son olarak, birçok yoğunluk tahmin yöntemi süreksizliklerin / sınırların yakınında kötü bir şekilde kötü performans gösterir, bu nedenle kümenize kesilmiş pdf'leri eklediğinizden emin olun.

  • A2. Sadece 1-B pdf'lerle mi ilgileniyorsunuz veya çok değişkenli durumu test etme planınız mı? Bir karşılaştırmalı pdfs paketine gelince, geçmişte MCMC algoritmalarını test etme amacı ile biraz ilgili bir soru sordum , ancak iyi kurulmuş bir pdfs seti gibi bir şey bulamadım.

Eğer bolca zamanınız ve hesaplama kaynaklarınız varsa, fikrinizi bir çeşit olumsuz test etmeyi düşünebilirsiniz :

  • Çok esnek bir parametrik pdfs ailesi tanımlayın (örneğin, bilinen bir dizi pdfs'nin büyük bir karışımı) ve yönteminizin performansını en aza indirgemek ve en üst düzeye çıkarmak için karışımın parametre alanı etrafında bazı dışbükey olmayan küresel optimizasyon yöntemi (*) ile hareket edin diğer son teknoloji yoğunluk kestirim yönteminin performansı (ve muhtemelen tam tersi). Bu, yönteminizin güçlü / zayıf yönünün güçlü bir testi olacaktır.

Son olarak, diğer tüm yöntemlerden daha iyi olma şartı aşırı yüksek bir çubuktur; işte serbest öğle yemeği prensibi olmamalıdır (herhangi bir algoritmanın düzgünlük, uzunluk ölçeği vb. gibi altta yatan bazı varsayımları vardır). Metodunuzun değerli bir katkı olması için, sadece algoritmanızın daha iyi çalıştığı bazı genel çıkarlara sahip rejimler / alanlar olduğunu göstermeniz gerekir (yukarıdaki rakip test böyle bir alanı bulmanıza / tanımlamanıza yardımcı olabilir).

(*) Performans metriğiniz stokastik olduğundan (Monte Carlo örnekleme yoluyla değerlendireceksiniz), gürültülü, maliyetli objektif işlevlerin optimizasyonu ile ilgili bu yanıtı da kontrol etmek isteyebilirsiniz .


1

S1: Yukarıdaki planımda herhangi bir gelişme var mı?

Bu bağlıdır. Karışım dağılımı kalıntıları genellikle başlamak için bir veri modeli olarak gereksiz bir karışım dağılımı belirtmek gibi aptalca şeyler yapmaktan kaynaklanır. Bu yüzden, kendi tecrübelerim, çıktıda modelde olduğu gibi en azından karışım dağılım terimlerini belirtmeyi önerir. Ayrıca, karışım PDF çıktıları modeldeki PDF çıktılarına benzemez. Mathematica varsayılan araması iki terime sahip karışım dağılımları içerir ve daha büyük bir sayı olarak belirtilebilir.

S2: Burada tekrar kullanabileceğim çeşitli zorluklarla (çok zor olanlar da dahil) analitik olarak tanımlanmış birçok gerçek PDF'nin kapsamlı bir listesi zaten var mı?

Bu Mathematica'nın FindDistribution rutininin bir listesidir :

TargetFunctions için olası sürekli dağılımlar şunlardır: BetaDistribution, Cauchy dağılımı, ChiDistribution, ChiSquareDistribution, ExponentialDistribution, ExtremeValueDistribution, FrechetDistribution, gamma dağılımı, GumbelDistribution, HalfNormalDistribution, InverseGaussianDistribution, Laplace dağılımı, LevyDistribution, LogisticDistribution, LogNormalDistribution, MaxwellDistribution, NormalDistribution, Pareto dağılımı, RayleighDistribution, StudentTDistribution, aynı şekilde dağılımı, Weibull dağılımı , Histogram Dağılım.

TargetFunctions için olası ayrık dağılımlar şunlardır: BenfordDistribution, BinomialDistribution, BorelTannerDistribution, DiscreteUniformDistribution, GeometricDistribution, LogSeriesDistribution, NegativeBinomialDistribution, PascalDistribution, PoissonDistribution, WaringYuleDistFistDistution, WaringYuleDistFistDistution, WaringYuleDistFistDistution,.

Dahili bilgi kriteri, TargetFunctions ile ilgili önceliklerle birlikte bir Bayes bilgi kriteri kullanır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.