Verilerin sürekli bir dağıtımdan en uygun şekilde ayrıştırılmasını belirleme


11

üzerinde desteklenen yoğunluğuna sahip sürekli bir dağıtımdan veri olduğunu varsayalım , ancak oldukça büyük olduğundan çekirdek yoğunluğu (örneğin) tahmin, oldukça doğrudur. Belirli bir uygulama için, gözlenen kütle fonksiyonu olan yeni bir veri kümesi elde etmek için gözlenen verileri sınırlı sayıda kategoriye dönüştürmem gerekiyor .Y1,...,Ynp(y)[0,1]np^(y)Z1,...,Zng(z)

olduğunda basit bir örnek ve olduğunda . Bu durumda indüklenen kütle fonksiyonuZi=0Yi1/2Zi=1Yi>1/2

g^(0)=01/2p^(y)dy,   g^(1)=1/21p^(y)dy

Burada iki "ayar parametresi" grup sayısı, ve eşiklerinin uzunluk vektörüdür . İndüklenen kütle fonksiyonunu belirtin .m(m1)λg^m,λ(y)

Örneğin, " için en iyi seçenek nedir, böylelikle grup sayısını yükseltmek (ve orada optimal seçmek ) ihmal edilebilir bir iyileşme sağlamak için cevap veren bir prosedür istiyorum. " . Belki de dağılımı türetilebilen bir test istatistiği (belki de KL diverjansındaki farklılık veya benzeri bir şeyle) oluşturulabilir gibi hissediyorum. Herhangi bir fikir veya ilgili literatür?m,λm+1λ

Düzenleme: Ben sürekli değişken geçici aralıklı ölçümleri var ve geçici bağımlılığı modellemek için homojen olmayan bir Markov zinciri kullanıyorum. Açıkçası, ayrık durum markov zincirlerinin kullanımı çok daha kolaydır ve bu benim motivasyonumdur. Gözlenen veriler yüzdelerdir. Şu anda benim için çok iyi görünen özel bir takdir yetkisi kullanıyorum, ancak bunun resmi (ve genel) bir çözümün mümkün olduğu ilginç bir sorun olduğunu düşünüyorum.

Düzenleme 2: Aslında KL sapmasını en aza indirmek, verileri tamamen takdir etmemekle eşdeğerdir, böylece fikir tamamen ortadan kalkar. Bedeni buna göre düzenledim.


1
Çoğu durumda, takip uygulamasının ihtiyaçları herhangi bir çözümün iyiliğini belirleyecektir. Belki bize rehberlik etmek için bu konuda daha fazla şey söyleyebilirsiniz.
whuber

İlk olarak, ne demek istediğinizi ihmal edilebilir şekilde tanımlayın . Bu durum, bir oran-bozulma problemiyle ilişkili gibi görünüyor . Kapak & Thomas metin gibi konular için güzel okunabilir bir giriş sağlar.
kardinal

parametrelerine sahip bir model gibi seviyeleri ile ayrıklaştırmayı düşünüyorum ( eşikler için). Bu ortamda ihmal edilebilir dediğimde istatistiksel anlamda "ekstra parametre eklemeye değmez" demek istiyorum. kk1
Makro

Ayrıklaştırmanın aslında iyi bir hamle olup olmadığından emin değilim. Gözlemlerinizin orijinal alanında ayrı değerlerin yarattığı sınırlar üzerinde genelleme yapamazsınız.
bayerj

Yanıtlar:


3

Bu soruna geldiğim çözümü bir süre önce paylaşacağım - bu resmi bir istatistiksel test değil, yararlı bir buluşsal yöntem sağlayabilir.


Sürekli gözlemlerinizin olduğu genel durumu düşünün ; genellik kaybı olmadan her gözlemin örnek alanının aralık olduğunu varsayalım . Bir sınıflandırma şeması bir dizi kategoriye, ve kategorileri bölen konum eşiklerine, .Y1,Y2,...,Yn[0,1]m0<λ1<λ2<<λm1<1

tarafından kategorize edilmiş sürümünü belirtin; burada . Verilerin orijinal verilerin sınıflara olarak , nin varyansı , sabit değeri için gruplar içinde ve arasında varyasyonun bir kombinasyonu olarak düşünülebilir. :YiZi(m,λ)λ={λ1,λ2,,λm1}Yim,λ

var(Yi)=var(E(Yi|Zi(m,λ)))+E(var(Yi|Zi(m,λ))).

Belirli bir sınıflandırma, grup varyansı içinde nispeten az varsa homojen gruplar üretmede başarılı olur . , bir tutumlu gruplama bu kazandıran en varyasyonun aramak için . vadede özellikle, biz seçmek istiyoruz ek düzeyleri ekleyerek, biz grup homojenliği içinde önemli ölçüde katmayan böylece. Bu akıl ile, optimal olan tanımlamak sabit değeri için olmakE(var(Yi|Zi(m,λ))Yivar(E(Yi|Zi(m,λ))mλm

λm=argminλE(var(Yi|Zi(m,λ)))

Hangi seçiminin yeterli olduğunu belirlemek için kaba bir teşhis , bir fonksiyonu olarak - bu yörünge monoton olarak artmaz ve keskin bir şekilde azaldıktan sonra, daha fazla kategori ekleyerek nispeten daha az hassasiyet kazandığınızı görebilirsiniz. Bu sezgisel tarama , varyasyonun "yeterli" değerini kaç ana bileşenin açıkladığını görmek için bazen " Scree Plot " un nasıl kullanıldığına benzer .mE(var(Yi|Zi(m,λm)))m

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.