Wilks teoremi ile sonlu bir karışımda gaussluların sayısını mı buluyorsunuz?


11

Bir dizi bağımsız, aynı şekilde dağıtılmış tek değişkenli gözlem ve nasıl oluşturulduğu hakkında iki hipotezim olduğunu varsayalım :xx

H0 : x , bilinmeyen ortalama ve varyansa sahip tek bir Gauss dağılımından çizilir.

HA : x ortalama, varyans ve karışım katsayısı bilinmeyen iki Gaussian karışımından alınmıştır.

Doğru anladıysam, bu o modele beri iç içe modellerdir H0 açısından tarif edilebilir temsil HA Eğer aynı olması ya da iki Gauss biri için sıfır olması karıştırma katsayısı sınırlamak için iki Gauss parametreleri sınırlamak durumunda.

Bu nedenle, H_A parametrelerini tahmin etmek için EM algoritmasını HAkullanabilmeniz ve daha sonra H_A altındaki verilerin olasılığının H_0 altındakinden HAdaha büyük olup olmadığını belirlemek için Wilks Teoremini kullanabilmeniz H0 . EM algoritmasının burada maksimum olasılığa yaklaşacağı varsayımına küçük bir inanç atılımı var, ancak yapmaya istekli olduğum varsayım.

Bunu monte edilmiş bir carlo simülasyonunda denedim, H_A'nın H_0'dan (ikinci Gauss ve karıştırma parametresi için ortalama ve varyans) HAdaha fazla 3 serbestlik derecesi olduğunu varsayarak . H_0'dan veri simüle ettiğimde , büyük ölçüde düzgün olmayan ve küçük P değerleri için zenginleştirilmiş bir P-değeri dağılımı elde ettim. (EM gerçek maksimum olasılığa yaklaşmasaydı, bunun tam tersi beklenirdi.) Wilks'in bu önyargıyı yaratan teoremini uygulamamda sorun nedir?H0H0

Yanıtlar:


8

Boş hipotezin iki bileşenli karışım modelinde nasıl bulunduğuna dair dikkatli bir spesifikasyonla, sorunun ne olabileceğini görmek mümkündür. Karışım modelindeki beş parametre , o zaman ya iki normal karışım bileşenleri eşit olduğu için, bu durumda, karışım oranı önemsizdir, veya bunların karışımı oranı olup, burada karışım bileşenlerinin durumda bir ilgisinin olmaması, 0 ya da 1 'dir. Sonuç olarak, boş hipotez, parametre uzayının boyutunu 5'ten 2'ye düşüren basit bir parametre kısıtlaması olarak yerel olarak bile belirtilemez.μ1,μ2,σ1,σ2,ρ

H0:(μ1=μ2 and σ1=σ2) or ρ{0,1}.
ρρ

Null hipotezi, tam parametre uzayının karmaşık bir alt kümesidir ve null altında parametreler bile tanımlanamaz. Wilk teoreminin çöküşünü elde etmek için gereken olağan varsayımlar, en önemlisi, log olasılığının uygun bir Taylor genişlemesini oluşturmak mümkün değildir.

Bu özel sorunla ilgili herhangi bir kişisel deneyimim yok, ancak parametrelerin null altında "kaybolduğu", burada da olduğu gibi görünen ve bu durumlarda Wilk teoreminin sonuçlarının da parçalandığı diğer vakaları biliyorum. . Hızlı bir arama, diğer şeylerin yanı sıra, alakalı görünen ve karışım modellerine göre olasılık oranı testinin kullanımı hakkında daha fazla referans bulabileceğiniz bu makaleyi verdi .


Teşekkürler. Böyle bir şeyin sorun olabileceğini düşündüm, ama emin değildim. Wilks Teoremi için iç içe bir model oluşturan şeyin daha ince noktaları hakkında biraz kafam karışmıştı. Sıfır altındaki tanımlanabilirlik hakkında iyi bir nokta.
dsimcha

4

Karışım bileşenlerinin sayısının çıkarılması, Wilks teoremi için gerekli düzenlilik koşullarını karşılamamaktadır, çünkü (a) parametreρparametre boşluğunun sınırındadır ve (b) parametreleme null altında tanımlanamaz. Bu, genelleştirilmiş olabilirlik oranının dağılımının bilinmediği anlamına gelmez! Kurulumunuzdaki 5 parametrenin tamamı bilinmiyorsa ve daha da önemlisi - sınırsızsa - LR istatistiğinin dağılımı birbirine yaklaşmaz. Tanımlanamayan tüm parametreler sınırlandırılmışsa, LR istatistiği kesilmiş bir Gauss sürecinin zirvesinde monoton olur. Kovaryansının genel (5 parametre) durumda hesaplanması kolay olmayan ve hatta sahip olsanız bile - böyle bir işlemin supremumunun dağılımı kolayca tahmin edilemez. İki bileşenli karışımla ilgili bazı pratik sonuçlar için buraya bakın. İlginç bir şekilde, makale, oldukça basit kurulumlarda, LR istatistiğinin bazı basit istatistiklerden daha az güçlü olduğunu göstermektedir. Bu tür problemlerde asimptotik dağılımın türetilmesine ilişkin seminal makale için buraya bakınız . Tüm pratik amaçlar için, bir EM kullanarak karışımı takabilir ve ardından LR istatistiğinin dağılımını Bootstrap edebilirsiniz. EM'nin yavaş olduğu bilindiğinden biraz zaman alabilir ve örneklem büyüklüğünün etkisini yakalamak için birçok çoğaltmaya ihtiyacınız vardır. Ayrıntılar için buraya bakın.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.