Poisson modelinde, zamanı ortak değişken veya ofset olarak kullanma arasındaki fark nedir?


18

Geçenlerde Poisson regresyonunda dengeleme olarak (örneğin) günlüğünü kullanarak pozlamaların zaman içinde nasıl modelleneceğini keşfettim.

Dengenin, katsayı 1 ile eş zamanlı olarak zamana karşılık geldiğini anladım.

Zamanı ofset veya normal bir değişken olarak kullanma arasındaki farkı daha iyi anlamak istiyorum (bu nedenle katsayıyı tahmin etmek). Hangi durumda bir yöntemi veya diğerini kullanmak istemeliyim?

YÜKSELTME: ilginç olup olmadığını bilmiyorum, ama 500 kez tekrarlanan rasgele bölünmüş verileri kullanarak iki yöntemin bir validasyonu koştum ve ofset yöntemini kullanarak daha büyük bir test hatasına yol açtığını fark ettim.

Yanıtlar:


25

Ofsetler herhangi bir regresyon modelinde kullanılabilir, ancak yanıt değişkeniniz için sayım verileriyle çalışırken çok daha yaygındır. Bir ofset, modelde katsayısına sahip olmaya zorlanan bir değişkendir 1. (Ayrıca bu mükemmel CV dizisine bakın: Poisson regresyonunda bir ofset ne zaman kullanılır? )

Sayım verileriyle doğru kullanıldığında , sayımlar yerine oranları modellemenizi sağlar . Bu ilgi çekiciyse, o zaman yapılacak bir şeydir. Dolayısıyla, ofsetlerin en sık kullanıldığı bağlam budur. Bir günlük bağlantısı olan (kanonik bağlantı) bir Poisson GLiM düşünelim.

ln(λ)=β0+β1X(counts)ln(λtime)=β0+β1X(rates)ln(λ)ln(time)=β0+β1Xln(λ)=β0+β1X+1×ln(time)(still rates)ln(λ)=β0+β1X+β2×ln(time)when β21(counts again)

(Görüldüğü gibi, bir doğru ofset kullanarak anahtar yapmaktır , dağılmaması t i m e .) ln(time)time

Üzerinde katsayısı zaman değil 1 , artık modelleme oranlarıdır. Ancak β 2( - , 1 ) ( 1 , ) verilere uyması için çok daha fazla esneklik sağladığı için, ofset olarak ln ( t i m e ) kullanmayan modeller tipik olarak daha iyi sığacaktır ( ayrıca overfit). ln(time)1β2(,1)(1,)ln(time)


Sayıları veya oranları modellemeniz gerekip gerekmediği, asıl sorunuzun ne olduğuna bağlıdır. Bilmek istediğiniz şeye karşılık geleni modellemelisiniz.

Bildiğim kadarıyla onun için ne anlama geldiğini olarak olmamak 1 , zaman söz konusu değişken olmayan bir örneği düşünün. Farklı hastanelerde cerrahi komplikasyonların sayısını incelediğinizi düşünün. Bir hastanede daha fazla cerrahi komplikasyon bildirilmiştir, ancak karşılaştırmanın adil olmadığını iddia edebilirler çünkü daha fazla ameliyat yaparlar. Yani bunu kontrol etmeye karar veriyorsunuz. Ameliyat başına komplikasyon oranını incelemenize izin verecek şekilde cerrahi sayısı günlüğünü ofset olarak kullanabilirsiniz. Ameliyat sayısının kaydını başka bir eş değişken olarak da kullanabilirsiniz. Diyelim ki katsayı 1'den önemli ölçüde farklı . Eğer p 2 > 1β211β2>1daha fazla ameliyat yapan hastanelerin daha yüksek bir komplikasyon oranı vardır (belki de daha fazla iş yapmak için işi acele ettikleri için). Eğer , en çok yapmak hastaneler ameliyattan başına daha az komplikasyon (belki de onlar iyi doktorlar var ve bu yüzden daha fazla çaba ve onları daha iyi yapmak) var. β2<1

Söz konusu değişkenin zaman olması durumunda bunun nasıl olabileceğini görmek biraz daha karmaşıktır. Poisson dağılımı ortaya çıkar Poisson sürecine olaylar arasındaki zaman katlanarak dağıtılmış ve bu nedenle yaşam analizine doğal bağlantı vardır edildiği. Hayatta kalma analizinde, olayların süresi genellikle üstel olarak dağıtılmaz, ancak temel tehlike zamanla daha büyük veya daha az olabilir. Bu nedenle, doğal bir başlangıç ​​noktasından sonra meydana gelen olay sayısını modellediğiniz bir durumu düşünün. Eğer , araçlarının olayların oranı öyle ki, eğer, hızlandırmak olan β 2 < 1β2>1β2<1, bu olayların hızının yavaşladığı anlamına gelir.

Birincisinin somut bir örneği için, ilk tümörün cerrahi olarak çıkarılmasından bir süre sonra kanser hücrelerinin sayısını sayan bir tarama düşünün. Bazı hastalar için ameliyattan bu yana daha fazla zaman geçti ve bunu hesaba katmak istediniz. Bir kanser ayağını geri kazandıktan sonra katlanarak büyümeye başlayacağından, bu oran ameliyattan bu yana ek tedavi olmaksızın zaman içinde artacaktır.

İkincisinin somut bir örneği için, tedavisi olmayan bir hastalık salgınından ölen insanların sayısını düşünün. İlk başta, birçok insan bu hastalığa daha duyarlı oldukları veya zaten zayıf bir bağışıklık sistemine sahip oldukları için ölür. Zamanla, kalan insanların nüfusu hastalığa daha az duyarlı olduğu için, oran azalacaktır. (Üzgünüm bu örnek çok hastalıklı.)


Kapsamlı cevabınız için çok teşekkürler Gung! Lütfen iyi anladıysam bana söyle. Bir offset olarak biz zaman kullanın zamanında olan ve açısal katsayı diğer belirleyicileri ile verilir exponentiated olaylar arasında doğrusal bir pozitif ilişki kabul . Bunun yerine, log zamanını ortak değişken olarak kullanırsak, zamanın olaylar üzerindeki üstel etkisini tahmin ederiz; bu pozitif ya da negatif olabilir y = t i m e β ty=timeexp(1pβpXp+const). (devamı ...)y=timeβtimeexp(1pβpXp+const)
Bakaburg

1
O halde neden zaman ve olaylar arasındaki ilişkinin doğrusal ve büyüyen olduğunu varsaymalıyız? Her durumda böyle bir ilişkinin şeklini tahmin etmek daha iyi olmaz mıydı? İki sorum daha var: 1. dönüştürülmüş zamanı değişmez olarak kullanmak yerine ne anlama gelir? 2. (belki de soruyu düzenlemeliyim veya bunun için yeni bir soru sormalıyım) Poisson modellerinin aslında tamsayı y ile de kullanılabileceğini okudum. Böylece R: glm (I (y / time) ~ cov.1 + ... + cov.n, poisson) yazabilir ve ofset (log (time)) kullandığım sonuçlara sahip olabilirim. Bunu denedim ama farklı katsayılar elde ediyorum.
Bakaburg

Poisson dist sadece tamsayılar içindir; LHS'ye bir kesir girmemelisiniz. Günlük dönüşümünü kullanmamak, gerçek dünyada hiçbir zaman mantıklı olmayacak olan olayların katlanarak birim zaman başına oranlarının modellenmesi anlamına gelir.
gung - Monica'yı eski

1
@Bakaburg, zaman muhtemelen onlarla ilişkilidir. Bu, diğer regresyon modelleme durumlarından farklı değildir. Sorunu burada görmüyorum. Ortalama oranları modellemekle ilgileniyorsunuz veya istemiyorsunuz.
gung - Monica'yı eski

1
@tatami, eğer zamanı bir dengeleme yerine bir ortak değişken olarak kullanacaksanız, zaman kaydını tutmanız gerekmez. Ancak, sonucunuzu bir ofset ile karşılaştırmak istiyorsanız, bunları karşılaştırılabilir hale getirmek için günlüğü kullanmanız gerekir.
gung - Monica'yı eski

7

Zaman ofsetleri genellikle modeliniz, birim zaman başına bir olayın meydana gelme hızını tahmin eden model olarak görülebilir; ofset, farklı konuları ne kadar süreyle gözlemlediğinizi kontrol eder.

Poisson modellerinde her zaman bir şeyin gerçekleşme hızını tahmin edersiniz, ancak asla bu hızı doğrudan gözlemlemezsiniz . Sen do bir olay belli sürenin üzerinde olur sayısını gözlemlemek için olsun. Ofset, iki kavram arasında bağlantı kurar.

Örneğin, değişen süre boyunca sepetleri çeken denekleri gözlemlediniz ve her denek için başarılı sepet sayısını saydınız. Her konunun bir sepeti ne sıklıkta battığına gerçekten ilgi duyduğunuz şey , yani her bir konunun her dakika batmasını beklediği başarılı sepet sayısı, çünkü bu yeteneklerinin biraz objektif bir ölçüsüdür. Batırıldığını gerçekten gözlemlediğiniz sepet sayısı, konunun denemesini ne kadar sürdüğünüzü tahmin ettiğiniz bu oran olacaktır. Böylece yanıtın birimleri , dakikadaki sepet sayısı açısından düşünebilirsiniz .

Poisson regresyonunda eş zamanlı olarak gözlenen zamanı kullanacağınız bir durumu düşünmek zor, çünkü doğası gereği bir oran tahmin ediyorsunuz.

Örneğin, amerikan ve avrupa olmanın (çok aptalca örnek) olmanın sepet sayısı üzerindeki etkisini değerlendirmek istersem, eş değişken olarak zaman eklemek, bu etkiyi, geçen zamandan "bağımsız" olarak değerlendirmeme izin verir, değil o? Dahası, bana zamanın sonuç üzerindeki etkisi hakkında da bir tahmin verebilir.

İşte umarım bunun tehlikesini vurgular. Amerikalıların ve Avrupalıların, aslında, her dakika aynı sayıda sepeti batırdığını varsayın. Ancak her Avrupalıyı her Amerikalıdan iki kat daha uzun süredir gözlemlediğimizi, bu nedenle ortalama olarak her Avrupalı ​​için iki kat daha fazla sepet gözlemlediğimizi söyleyin.

Hem gözlemlenen zaman için parametreler hem de "Avrupa" için bir gösterge içeren bir model oluşturursak , bu modellerin her ikisi de verileri açıklar:

E(sepetler)=2ct+0xEropean
E(sepetler)=0t+2cxEropean

c

Bir istatistikçi olarak, bu durumda modelimizin Avrupalıların sepet yapma oranı ile Amerikalıların sepet yapma oranı arasında istatistiksel bir fark olmadığını bize bildirmesini gerçekten istiyoruz. Ancak modelimiz bunu başaramadı ve kafamız karıştı.

Sorun olduğunu biz bizim modeli olmadığını şeyler bilmek değil biliyorum. Olduğunu, biz biz çok zaman olarak iki kez aynı bireyi gözlemlemek durumunda, verilen beklenti içinde, birçok sepetler iki kat yapacak biliyoruz. Bunu bildiğimizden, modelimize bunu anlatmamız gerekiyor. Ofset bunu başarır.

Belki olayların zaman içinde eşit bir şekilde gerçekleştiğini bildiğimizde ofset yöntemini kullanmak uygundur!

Evet, ama bu poisson modelinin kendisinin bir varsayımıdır . Poisson Dağılımındaki Vikipedi sayfasından

Fransız matematikçi Siméon Denis Poisson'un adını taşıyan Poisson dağılımı, bu olaylar bilinen bir ortalama hızda ve bağımsız olarak gerçekleşirse, belirli bir zaman aralığında ve / veya boşlukta meydana gelen belirli sayıda olayın olasılığını ifade eden ayrı bir olasılık dağılımıdır . son olaydan bu yana geçen zaman .


2
Cevabınız için teşekkürler. Ama zamanı ortak değişken olarak kullanmak bana aynı cevabı vermeyecek miydi? Örneğin, amerikan ve avrupa olmanın (çok aptalca örnek) olmanın sepet sayısı üzerindeki etkisini değerlendirmek istersem, eş değişken olarak zaman eklemek, bu etkiyi, geçen zamandan "bağımsız" olarak değerlendirmeme izin verir, değil o? Dahası, bana zamanın sonuç üzerindeki etkisi hakkında da bir tahmin verebilir. Bazen bir sayım değişkeni için zaman her zaman önemli değildir, örneğin olayların hepsi gözlem döneminin başlangıcında.
Bakaburg

Belki olayların zaman içinde eşit bir şekilde gerçekleştiğini bildiğimizde ofset yöntemini kullanmak uygundur!
Bakaburg

1
@Bakaburg Bir deneme girişimi ekledim. Umut ediyorum bu yardım eder!
Matthew Drury
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.