Genel katkı maddesi Poisson modeli probleminde spline df seçimi


9

SAS'ları kullanarak Poisson genel katkı modeli kullanarak bazı zaman serisi verileri uydurdum PROC GAM. Genel olarak konuşursak, yerleşik genelleştirilmiş çapraz doğrulama prosedürünün, tek bir parametrik terimle birlikte doğrusal olmayan bir zaman fonksiyonu olan tek spline için en azından iyi bir "başlangıç ​​noktası" oluşturmasını sağladım. gerçekten ilgileniyorum).

Şimdiye kadar, veri setlerimden biri hariç, oldukça yüzerek çalıştı. Bu veri setinde 132 gözlem var ve GCV 128 derecelik bir spline öneriyor. Öyle görünüyor ... yanlış. Çok yanlış. Daha da önemlisi, aynı zamanda hiç kararlı değil. Parametrik terimin tahmini değişmeyi bıraktığında, serbestlik dereceleri eklemeyi durdurmak için "Tahmindeki Değişim" kriterleri gibi bir şey kullanarak ikinci bir yaklaşım denedim, çünkü hiçbir şey farklı değilse neden kontrol eklemeye devam ediyorsunuz?

Sorun şu ki, tahminin hiç istikrarlı olmaması. Aşağıdaki serbestlik derecelerini denedim ve görebileceğiniz gibi parametrik terim çılgınca zıplıyor:

DF: Parametric Estimate:
1   -0.76903
2   -0.56308
3   -0.47103
4   -0.43631
5   -0.33108
6   -0.1495
7    0.0743
8    0.33459
9    0.62413
10   0.92161
15   1.88763
20   1.98869
30   2.5223
40-60 had convergence issues
70   7.5497
80   7.22267
90   6.71618
100  5.83808
110  4.61436
128  1.32347

Ben bu özel veri biraz df açısından ne kullanmalıyım hakkında hiçbir sezgi var. Bir df seçmek için başka herhangi bir fikir? Spline'ın önemine bakmalı mıyım?

Df = 10 ve df = 15 arasında biraz daha fazla görünmek, 128 tarafından üretilen tahmine en yakın olan df = 12 gibi görünüyor ve hala "makul derecede serbestlik" aralığında. Doğrusal terim, kesişme ve tek parametrik terim ile birlikte, oldukça ağır doymuş bir model gibi hissediyor. Sadece 12 ile gitmek haklı mı?

İkinci bir güncelleme olarak, düzeltmeyi 'den' spline(t)e değiştirmek loess(t)çok daha iyi davranılmış df tahminleri ile sonuçlanır - sadece düzgün olmayan yumuşatmaya geçmeliyim?


132 gözlemli veri kümenizde, aslında 132'den fazla gözlem içeren ağırlıklı bir veri kümesi olduğunu ima eden ilişkili bir sayım ve ofset terimi var mı? Poisson RV'lerde ortalama varyans ilişkisi nedeniyle, büyük sayımlar "büyük örnek boyutu" nedeniyle elverişsiz olan "model seçimi" özelliklerine yol açabilir.
AdamO

Veri kümesi, sayımlar = model terimleri + günlük (kişi-zaman) olarak ofset olarak modellenen 132 haftalık verilerdir. Sayımlar asla özellikle yükselmez - ancak oldukça fazla sıfır vardır.
Fomite

Yanıtlar:


5

@ M.Berk'in de belirttiği gibi, GCV'nin yetersiz olduğu bilinmektedir, çünkü bu kriter aşırıya kaçmayı zayıf bir şekilde cezalandırmaktadır, bu da GCV kriterinin bir fonksiyonu olarak çok sığ bir minimumla sonuçlanma eğilimindedir. λ, pürüzsüzlük parametresi. Minimum çok sığ olduğundan, optimum GCV geniş bir aralıkta ortaya çıkabilir.λtahmin etmektedir. Ayrıca, GCV kriteri,λaçıkladığınız kararsızlığa yol açabilecek birden fazla minimuma sahip olma eğilimindedir. Simon Wood'un (2011) Şekil 1'de bunun güzel bir örneği var.

Wood (2011) ayrıca AICc'nin pürüzsüz fonksiyonlar için kullanılan düşük ila orta seviye tabanları için GCV'ye göre fazladan fayda sağlamadığını göstermektedir.

Buna karşılık, REML (ve ayrıca ML) pürüzsüzlük seçimi, GCV'den daha fazla uyumu cezalandırır ve sonuç olarak çok daha açık bir şekilde tanımlanmış bir optimumya sahiptir. Bu, daha istikrarlı tahminlere yol açar.λ ve düşük ısınma riski.

Wood (2011), yakınsama açısından mevcut REML (ML) yaklaşımlarına göre iyileştirmeler gösterdiğini gösteren hem hızlı hem de kararlı olan REML ve ML tahmin prosedürlerini açıklamaktadır. Bu fikirler Simon'un R için mgcv paketinde mevcuttur .

Wood (2011) bir ödeme duvarının arkasında olduğu için, web sitesinde , pürüzsüzlük seçim yöntemleri {PDF} üzerinde bulunan bir dizi Simon slaytından alınan benzer bir görüntünün (AICc sonuçları burada gösterilmiyor) bir kopyasını ekliyorum . Slayt 10'daki şekil aşağıda gösterilmiştir

resim açıklamasını buraya girin

İki sıra, sırasıyla güçlü (üst) veya hiç (alt) sinyal olmayan simüle verileri yansıtır. En soldaki paneller her modelden bir gerçekleşme gösterir. Kalan paneller GCV'nin (orta sütun) ve REML kriterlerininλ10 veri seti için her biri gerçek modelden simüle edilmiştir. Üst sıra durumunda, GCV'nin optimumun solunda ne kadar düz olduğuna dikkat edin. Bu panellerdeki halı arazileri en uygunλ10 gerçekleşmenin her biri için. REML kriteri, seçilen değerlerde çok daha belirgin bir optimum ve daha az varyansa sahiptirλ.

Bu nedenle mgcv paketi için Simon Wood tarafından savunulan yaklaşımı , yani temel boyut olarak, arasındaki ilişkiye beklenen esnekliği içerecek kadar büyük bir şey seçmeyi öneririm.y=f(x)+ε, ama çok büyük değil. Ardından modeli REML düzgünlük seçimini kullanarak takın. Seçilen model serbestlik dereceleri başlangıçta belirtilen boyuta yakınsa, temel boyutu artırın ve yeniden takın.

Hem M.Berk hem de @BrendenDufault'un belirttiği gibi, Kama tabanını kurarken, GAM'a uyacak uygun bir temel boyut seçmek için bir dereceye kadar subjektiflik gerekebilir. Ancak REML düzgünlüğü seçiminin Wood'un yöntemlerini kullanan çeşitli GAM uygulamalarındaki deneyimimde oldukça sağlam olduğu kanıtlandı.

Wood, SN (2011) Yarı kararlı genelleştirilmiş doğrusal modellerin hızlı kararlı kısıtlı maksimum olabilirlik ve marjinal olabilirlik tahmini . J. Kraliyet İstatistik Kurumu B 73 (Bölüm 1), 3-6.


@EpiGrad Hoşgeldiniz. Üzgünüm o zaman soruyu kaçırdım; Geçtiğimiz bir iki yıl boyunca sizinkine benzer durumlarla mücadele ediyorum ve Simon Wood'un bu konudaki makalelerini okudum ve çeşitli vesilelerle seçim yaptım. Yardımcı olmak için bazı ayrıntıları hatırlayabildiğim için mutluyum.
Gavin Simpson

3

En iyi bahisinizin yumuşatma algoritmalarının dışında olduğunu düşünüyorum; model parsimony düşünün.

Bunu ima edersiniz, ancak bunun ana seçim kriterleriniz olması gerektiğine inanıyorum. Modellenen süreçlerin etiyolojisine / nedenselliğine bağlı olarak kaç "kıvrımın" makul göründüğünü kendinize sorun. Takılan spline'ları plots=components(clm)ifade ile grafikleyin ve uygunluğu görsel olarak değerlendirin. Belki de yüksek DF spline'ları, daha gürültülü olmakla birlikte, düşük DF spline'larına benzer bir hikaye anlatıyor. Bu durumda, düşük bir DF oturumu seçin.

Sonuçta, GAM modellerinin keşif amaçlı olması amaçlanmıştır.

GCv seçeneğini kendim kullandıktan sonra , Poisson koşulları, seyrek veriler, vb. Altındaki performansını merak ediyorum. Belki burada bir simülasyon çalışması yapılması gerekiyor.


2

Aşağıdaki cevabı yazdım ve daha sonra hiçbir deneyimim olmayan Poisson regresyonu için geçerli olup olmadığına dair hiçbir fikrim olmadığını fark ettim. Belki insanlar bunu bazı yorumlarla cevaplayabilir.


Şahsen, BW Silverman'ın (1985) "Parametrik olmayan regresyon eğrisi uyumuna spline yumuşatma yaklaşımının bazı yönleri (tartışma ile) hoşuma gidiyor." ( Burada abonelik olmadan kullanılabilir ): bir dizi düzeltme parametresini deneyin ve görsel olarak en çekici olanı seçin.

Aynı makalede haklı olarak işaret ettiği için, öznel bir yaklaşım tercih edilebilirken, yine de otomatik yöntemlere ihtiyaç vardır. Bununla birlikte, GCV genellikle yetersiz bir eğilime sahip olduğu için kötü bir seçimdir. Örneğin bkz. Hurvich ve arkadaşları (1998) "Geliştirilmiş Akaike Bilgi Ölçütü Kullanarak Parametrik Olmayan Regresyonda Parametre Seçimini Düzeltme" ( Buraya abone olmadan kullanılabilir ). Aynı makalede, sorununuzu hafifletebilecek yeni bir kriter öneriyorlar: düzeltilmiş AIC, küçük bir örnek boyutu düzeltmesi içeriyor. Sen bulabilirsiniz AICC Vikipedi açıklamasını kağıttan daha takip etmek daha kolay. Wikipedia makalesinde ayrıca Burnham & Anderson'dan bazı iyi tavsiyeler de bulunmaktadır (örnek boyutundan bağımsız olarak AIC yerine AICc kullanın).

Özetle, önerilerim tercih sırasına göre:

  1. Görsel değerlendirme ile düzgünleştirme parametresini manuel olarak seçin
  2. GCV yerine düzeltilmiş AIC'yi (AICc) kullanın
  3. Standart AIC'yi kullanın
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.