Verileri fazla uydurmadan en uygun olanı nasıl seçerim? N normal fonksiyonlar, vb. İle bir bimodal dağılımın modellenmesi


11

Ben uymaya çalışıyorum değerleri bimodal açık bir dağıtım var. Veriler 2 normal fonksiyon (bimodal) veya 3 normal fonksiyon ile uyumlu olabilir. Ek olarak, verilerin 3'e uyması için makul bir fiziksel neden vardır.

Ne kadar çok parametre eklenirse, uyum da o kadar mükemmel olur, yeterli sabitlerde olduğu gibi, bir kişi " bir fil sığabilir ".

İşte 3 normal (Gaussian) eğrinin toplamına uyan dağılım:

Dağıtım

Bunlar her uyum için verilerdir. Uygunluğu belirlemek için burada hangi testi uygulamam gerektiğinden emin değilim. Veriler 91 puandan oluşmaktadır.

1 Normal İşlev:

  • RSS: 1.06231
  • X ^ 2: 3.1674
  • Test: 0.3092

2 Normal Fonksiyon:

  • RSS: 0.010939
  • X ^ 2: 0.053896
  • Test: 0.97101

3 Normal Fonksiyon:

  • RSS: 0.00536
  • X ^ 2: 0.02794
  • Test: 0.99249

Bu 3 uyumdan hangisinin en iyi olduğunu belirlemek için uygulanabilecek doğru istatistiksel test nedir? Açıkçası, 1 normal fonksiyon uyumu yetersizdir. Öyleyse 2 ile 3 arasında nasıl ayrım yapabilirim?

Eklemek için, bunu çoğunlukla Excel ve küçük bir Python ile yapıyorum; Henüz R veya diğer istatistiksel dillere aşina değilim.


İndirgenmiş chi karesi X ^ 2 / (Nn-1) kullanmam önerildi; burada N, veri noktası sayısı ve n, takılmış parametre sayısıdır. Bununla birlikte, veri noktalarının sayısına (91) göre küçük ceza (+/- 3), sezgisel olarak başka bir Gauss eklemek için özellikle dik bir ceza gibi görünmemektedir.
MurphysLab

Bu yanıtı kontrol etmek isteyebilirsiniz ( Rrotaya gitmeye karar vermeniz durumunda ). Bu cevapta bazı model seçim kriterleri belirtilmiştir . Son olarak, bu cevapta kısaca ele aldığım ve Python odaklı bilgilere de bağlantı veren topluluk yöntemlerini düşünmek isteyebilirsiniz . Üzerinde daha fazla ayrıntı bulabilirsiniz modeli seçimi ve ortalamaya içinde bu cevap .
Aleksandr Blekh

Yanıtlar:


5

Dağıtımınızı seçme sorununa iki şekilde ulaşabilirsiniz:

  1. Model karşılaştırması için, parametre sayısına bağlı olarak modeli cezalandıran bir hesaplama kullanın. Bilgi kriterleri bunu yapar. Hangi modelin saklanacağını seçmek için bir bilgi ölçütü kullanın, en düşük bilgi ölçütüne sahip modeli seçin (örneğin AIC). AIC'lerde bir farkın anlamlı olup olmadığını karşılaştırmanın temel kuralı, AIC'deki farkın 2'den büyük olup olmadığıdır (bu resmi bir hipotez testi değildir, bkz . İki iç içe olmayan modelin AIC'deki farkı test etme ).

    AIC = , burada tahmini parametre sayısı ve maksimum olasılıktır, ve olabilirlik fonksiyonudur ve , gözlenen verilerin dağıtım parametresinde koşullu olasılığıdır .2k2ln(L)kLL=maxθL(θ|x)L(θ|x)=Pr(x|θ)Pr(x|θ)xθ

  2. Resmi bir hipotez testi yapmak isterseniz, en az iki şekilde ilerleyebilirsiniz. Muhtemelen daha kolay olanı, numunelerinizin bir kısmını kullanarak dağılımlarınızı sığdırmak ve kalan dağılımların verilerin geri kalanında bir Chi-kare veya Kolgomorov-Smirnov testi kullanarak önemli ölçüde farklı olup olmadığını test etmektir. Bu şekilde, modelinizde yorumlarda belirtilen AndrewM ile aynı verileri kullanmak ve test etmek için kullanmazsınız.

    Ayrıca, null dağılımına göre bir ayarlama ile bir olasılık oranı testi de yapabilirsiniz. Bunun bir versiyonu Lo Y. ve diğ. (2013) "Normal karışımdaki bileşen sayısının test edilmesi." Biyometrik biber ama makaleye erişimim yok, bu yüzden bunu tam olarak nasıl yapacağınıza dair daha fazla ayrıntı veremiyorum.

    Her iki durumda da, eğer test anlamlı değilse, daha az sayıda parametre ile dağılımı koruyun, eğer anlamlı ise daha fazla sayıda parametre ile olanı seçin.


@Momo teşekkürler, bunu değiştirdi ve AIC için denklemi ekledi
Chris Novak

% 100 emin değilim, ancak standart AIC karışım modellerinde beklendiği gibi çalışmayabilir, çünkü karışımların farklı konfigürasyonları aynı modeli verebilir.
Çağdaş Özgenc

Demek istediğim 2 gaussian (1/2 ve 2 ve 1 ve aynı zamanda karışım ağırlıkları için ortalama / varyans ayarlayarak) ve yine aynı modeli alabilirsiniz. Bildiğim kadarıyla AIC bu gibi durumlarda beklendiği gibi çalışmaz.
Çağdaş Özgenc

1
@CagdasOzgenc Demek istediğim, ancak standart AIC ve BIC'nin gauss karışım modellerinde model seçimi için yeterli olduğu görülüyor, örneğin kağıt projecteuclid.org/download/pdf_1/euclid.aos/1176348772
Chris Novak

1
@ChrisNovak evet, bir olasılık oranı testi ( DOF ile parametre boşluğunun boyutundaki farka eşit tipik sıfır örnekleme dağılımında yapılan ayarlamalarla ) iyi bir fikirdir. Ayarların ne kadar karmaşık olduğunu bilmiyorum ancak bu durumlarda karışımları tipiktir. Parametre alanının sınırındaki bir noktayı test ettiğiniz için ayarlamalar gereklidir. χ2χ2
Andrew M
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.