Ofsetler herhangi bir regresyon modelinde kullanılabilir, ancak yanıt değişkeniniz için sayım verileriyle çalışırken çok daha yaygındır. Bir ofset, modelde katsayısına sahip olmaya zorlanan bir değişkendir 1. (Ayrıca bu mükemmel CV dizisine bakın: Poisson regresyonunda bir ofset ne zaman kullanılır? )
Sayım verileriyle doğru kullanıldığında , sayımlar yerine oranları modellemenizi sağlar . Bu ilgi çekiciyse, o zaman yapılacak bir şeydir. Dolayısıyla, ofsetlerin en sık kullanıldığı bağlam budur. Bir günlük bağlantısı olan (kanonik bağlantı) bir Poisson GLiM düşünelim.
ln(λ)ln(λtime)ln(λ)−ln(time)ln(λ)ln(λ)=β0+β1X=β0+β1X⇒=β0+β1X=β0+β1X+1×ln(time)≠=β0+β1X+β2×ln(time)when β2≠1(counts)(rates)(still rates)(counts again)
(Görüldüğü gibi, bir doğru ofset kullanarak anahtar yapmaktır , dağılmaması t i m e .) ln(time)time
Üzerinde katsayısı zaman değil 1 , artık modelleme oranlarıdır. Ancak β 2 ∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ ) verilere uyması için çok daha fazla esneklik sağladığı için, ofset olarak ln ( t i m e ) kullanmayan modeller tipik olarak daha iyi sığacaktır ( ayrıca overfit). ln(time)1β2∈(−∞,1)∪(1,∞)ln(time)
Sayıları veya oranları modellemeniz gerekip gerekmediği, asıl sorunuzun ne olduğuna bağlıdır. Bilmek istediğiniz şeye karşılık geleni modellemelisiniz.
Bildiğim kadarıyla onun için ne anlama geldiğini olarak olmamak 1 , zaman söz konusu değişken olmayan bir örneği düşünün. Farklı hastanelerde cerrahi komplikasyonların sayısını incelediğinizi düşünün. Bir hastanede daha fazla cerrahi komplikasyon bildirilmiştir, ancak karşılaştırmanın adil olmadığını iddia edebilirler çünkü daha fazla ameliyat yaparlar. Yani bunu kontrol etmeye karar veriyorsunuz. Ameliyat başına komplikasyon oranını incelemenize izin verecek şekilde cerrahi sayısı günlüğünü ofset olarak kullanabilirsiniz. Ameliyat sayısının kaydını başka bir eş değişken olarak da kullanabilirsiniz. Diyelim ki katsayı 1'den önemli ölçüde farklı . Eğer p 2 > 1β211β2>1daha fazla ameliyat yapan hastanelerin daha yüksek bir komplikasyon oranı vardır (belki de daha fazla iş yapmak için işi acele ettikleri için). Eğer , en çok yapmak hastaneler ameliyattan başına daha az komplikasyon (belki de onlar iyi doktorlar var ve bu yüzden daha fazla çaba ve onları daha iyi yapmak) var. β2<1
Söz konusu değişkenin zaman olması durumunda bunun nasıl olabileceğini görmek biraz daha karmaşıktır. Poisson dağılımı ortaya çıkar Poisson sürecine olaylar arasındaki zaman katlanarak dağıtılmış ve bu nedenle yaşam analizine doğal bağlantı vardır edildiği. Hayatta kalma analizinde, olayların süresi genellikle üstel olarak dağıtılmaz, ancak temel tehlike zamanla daha büyük veya daha az olabilir. Bu nedenle, doğal bir başlangıç noktasından sonra meydana gelen olay sayısını modellediğiniz bir durumu düşünün. Eğer , araçlarının olayların oranı öyle ki, eğer, hızlandırmak olan β 2 < 1β2>1β2<1, bu olayların hızının yavaşladığı anlamına gelir.
Birincisinin somut bir örneği için, ilk tümörün cerrahi olarak çıkarılmasından bir süre sonra kanser hücrelerinin sayısını sayan bir tarama düşünün. Bazı hastalar için ameliyattan bu yana daha fazla zaman geçti ve bunu hesaba katmak istediniz. Bir kanser ayağını geri kazandıktan sonra katlanarak büyümeye başlayacağından, bu oran ameliyattan bu yana ek tedavi olmaksızın zaman içinde artacaktır.
İkincisinin somut bir örneği için, tedavisi olmayan bir hastalık salgınından ölen insanların sayısını düşünün. İlk başta, birçok insan bu hastalığa daha duyarlı oldukları veya zaten zayıf bir bağışıklık sistemine sahip oldukları için ölür. Zamanla, kalan insanların nüfusu hastalığa daha az duyarlı olduğu için, oran azalacaktır. (Üzgünüm bu örnek çok hastalıklı.)