Büyük verilerle Poisson regresyonu: ölçüm birimini değiştirmek yanlış mı?


17

Bir poisson dağılımındaki faktöriye bağlı olarak, gözlemler büyük olduğunda poisson modellerini (örneğin, maksimum olasılık kullanarak) tahmin etmek pratik olmaz. Yani, örneğin, belirli bir yıldaki intihar sayısını açıklamak için bir model tahmin etmeye çalışıyorsam (sadece yıllık veriler mevcuttur) ve her yıl binlerce intihar var, yüzlerce intihar ifade etmek yanlış mı , böylece 2998 29,98 ~ = 30 olur? Başka bir deyişle, verileri yönetilebilir hale getirmek için ölçü birimini değiştirmek yanlış mıdır?

Yanıtlar:


15

\ Lambda (parametresi) gibi büyük değerlere sahip bir Poisson dağılımı ile uğraşırken, Poisson dağılımına normal bir yaklaşım kullanmak yaygındır.

Gibi bu site bahseder, bu \ lambda 20'den fazla aldığında normale tahminini kullanmak için tüm doğru, ve \ lambda da yüksek alır gibi yaklaşım geliştirir.

Poisson dağılımı yalnızca negatif olmayan tamsayılardan oluşan durum alanı üzerinde tanımlanır, bu nedenle yeniden ölçeklendirme ve yuvarlama verilerinize tuhaf şeyler katacaktır.

Normal yakl. büyük Poisson istatistikleri için ÇOK yaygındır.


6

Poisson durumunda, sayımlar sayıldığından kötüdür - birimleri birliktir. Öte yandan, R gibi bazı gelişmiş yazılımlar kullanırsanız, Poisson işleme işlevleri bu kadar büyük sayıların farkında olacak ve bunları işlemek için bazı sayısal hileler kullanacaktır.

Açıkçası normal yaklaşımın başka bir iyi yaklaşım olduğu konusunda hemfikirim.


3

Çoğu istatistiksel paket, faktöriyelin doğal logaritmasını doğrudan hesaplama fonksiyonuna sahiptir (örneğin R'deki lfactorial () fonksiyonu, Stata'daki lnfactorial () fonksiyonu). Bu, isterseniz sabit terimi günlük olasılığına dahil etmenizi sağlar.


Buna ek olarak, n!= Gamma(n+1)n> = 0 için. Bu nedenle Gamma, faktöriyeli hesaplamanız gerekiyorsa (veya günlük olasılığını hesaplıyorsanız Gamma'yı günlüğe kaydet) denilen bir işlevi aramaya çalışın
Andre Holzner

3

Korkarım bunu yapamazsın. @Baltimark'ın belirttiği gibi, büyük lambda ile dağılım daha normal bir şekle (simetrik) sahip olacak ve ölçeklendirildiğinde artık poisson dağılımı olmayacaktır. R'de aşağıdaki kodu deneyin:

poi1 = rpois(100000, lambda = 5)  # poisson
poi2 = rpois(100000, lambda = 100)/20 # scaled-down poisson
poi2_dens = density(poi2)

hist(poi1, breaks = 0:30, freq = F, ylim = range(poi2_dens$y))
lines(poi2_dens, col = "red")

Sonuç aşağıdadır:

resim açıklamasını buraya girin

Ölçeklendirilmiş poisson (kırmızı çizgi) 'nin poisson dağılımından tamamen farklı olduğunu görebilirsiniz.


1

Maksimum olasılığı kullanırken 'faktöriyeli' göz ardı edebilirsiniz. İşte intihar örneğinizin nedeni. İzin Vermek:

λ: Yıllık beklenen intihar sayısı

k i : i yılında intiharların sayısı olun.

Sonra günlük olasılığını maksimuma çıkarırsınız:

LL = ∑ (k i günlüğü (λ) - λ - k i !)

Yukarıda maksimize k olarak aşağıdakileri maksimize eşdeğerdir i ! sabittir:

LL ' = ∑ (k i günlüğü (λ) - λ)

Faktöriyörün neden bir sorun olduğunu açıklayabilir misiniz? Bir şey mi kaçırıyorum?


Yapmaya çalıştığınız tek şey bir dizi gözlemden parametreyi tahmin etmekse bir şey kaçırmazsınız. Bu kesinlikle OP'nin sorusunun ana fikriydi. Ancak, aynı zamanda (titizlikle olmasa da) genel olarak "poisson modellerinin nasıl tahmin edileceğini" soruyordu. Belki de belirli bir noktada pdf değerini bilmek istiyor. Bu durumda, normal yakl. muhtemelen parametrenin ölçeklendirilmesinden daha iyi olacaktır ve gözlemler faktöriyel hesaplamayı pratik yapmak için yeterince büyükse, gözlemleri 100 veya her neyse.
Baltimark

1
@Srikant, haklı olarak, faktöriyelin bir sorun olmadığını tahmin etmek için haklısınız, ancak genel olarak belirli bir model için olasılığın değerini isteyeceksiniz ve bunun için faktöriyeli kullanmanız gerekecektir. Ayrıca, hipotez testi için (örneğin olabilirlik oranı testi) olabilirlik değerine ihtiyacınız olacaktır.
Vivi

@Baltimark: evet, Poisson'un ölçüm birimini değiştirmenin geçerli olup olmadığını genel olarak bilmek istiyorum. Bu soru soruldu ve ne diyeceğimi bilmiyordum.
Vivi

@Vivi: Olasılığı neden k_i ile hesaplamak istediğinden emin değilim! çoğu uygulamada olduğu gibi (örneğin, olasılık oranı testi, bayes kestirimi) sabit önemli olmayacaktır. Her durumda, önerdiğiniz gibi yeniden ölçeklendirebileceğinizi düşünmüyorum. Aksi takdirde cevabımı güncelleyeceğim.

@Srikant, senin fikrini görüyorum, ancak bazı yazılımlar (örneğin Eviews) bunu varsayılan olarak içerir ve büyük sayılar sevdiğiniz veya sevmediğiniz bir konudur. Sanırım bunu neden bir yoldan ziyade neden yapabileceğiniz veya yapamayacağınıza dair bir açıklamadan sonraydım, ancak tartışma yine de ilginç ve öğretici oldu :)
Vivi
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.