Sayım verilerini bağımsız değişken olarak kullanmak GLM varsayımlarından herhangi birini ihlal ediyor mu?


14

Lojistik regresyon modeline uyurken sayım verilerini ortak değişken olarak kullanmak istiyorum. Sorum şu:

  • Bağımsız değişkenler olarak sayım, negatif olmayan tamsayı değişkenleri kullanarak lojistik (ve daha genel olarak genelleştirilmiş doğrusal model) varsayımlarını ihlal ediyor muyum?

Literatürde sıcak kullanım sayısı verilerinin sonuç olarak olduğu, fakat değişken olarak olmadığı konusunda birçok referans buldum; örneğin çok net bir makaleye bakınız: "NE Breslow (1996) Genelleştirilmiş Doğrusal Modeller: Varsayımları Kontrol Etme ve Sonuçları Güçlendirme, Congresso Nazionale Societa Italiana di Biometria, Cortona Haziran 1995", http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .

Gevşek olarak, glm varsayımlarının aşağıdaki gibi ifade edilebileceği görülmektedir:

  • iid kalıntıları;
  • link işlevi bağımlı ve bağımsız değişkenler arasındaki ilişkiyi doğru bir şekilde temsil etmelidir;
  • aykırı değerlerin olmaması

Herkes, ortak değişkenlerle başa çıkmak için başka bir tür model kullanmayı önerebilecek başka bir varsayım / teknik sorun olup olmadığını biliyor mu?

Son olarak, verilerimin nispeten az sayıda örnek (<100) içerdiğini ve sayı değişkenlerinin aralıklarının 3-4 büyüklük sırasına göre değişebileceğini (yani bazı değişkenlerin 0-10 aralığında değeri olduğunu, diğer değişkenlerin 0-10000).

Basit bir R örnek kodu şöyledir:

\###########################################################

\#generating simulated data

var1 <- sample(0:10, 100, replace = TRUE);    
var2 <- sample(0:1000, 100, replace = TRUE);    
var3 <- sample(0:100000, 100, replace = TRUE);    
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);

\#fitting the model

model <- glm(outcome ~ ., family=binomial, data = dataset)

\#inspecting the model

print(model)

\###########################################################

Siteye Hoşgeldiniz! Bir açıklama: gönderilerinizi imzalamak istiyorsanız profilinizi kullanın (özellikle hakkımda kutusu).

11
genellikle, GLM modellerinde, öngörücü ("bağımsız") değişkenlerin bilinen bazı sabitler olduğu varsayılır, bunlar hakkında NO dağıtım varsayımları yoktur! Dolayısıyla, sayım verilerinin yordayıcı olarak kullanılmasında yanlış bir şey yoktur.
kjetil b halvorsen

1
kjetil Bu doğru - ve soruya iyi bir cevap. Yine de, burada açıklanan IV'lerin aşırı aralıklarıyla, verilerin etkisini değerlendirmek, uyum iyiliğini kontrol etmek ve özellikle doğrusal olmayan bir ilişki potansiyelini değerlendirmek akıllıca olacaktır. Bu ilişki aslında umuduyla bitmiş olacaktır olduğu doğrusal olmayan ve böyle bir kökü veya günlük olarak IVlerin, yeniden ifadesi olduğunu, bu sayede aynı anda etki bazı sorunların hafifletilmesi, hizalandınlmak olacaktır. Muhtemelen @ user14583 yanıtlarında belirtmeye çalışmaktadır.
whuber

@kjetilbhalvorsen - "Dağıtım varsayımları yok" fikrine katılıyorum, ancak bu kelimelerin hiçbirinin uymadığı için "bilinen" veya "sabitler" demek istediğinizi sanmıyorum.
rolando2

4
Rastgele olmadıkları anlamında "sabitlerdir": dağılım yok. Bunlar hatasız ölçülecekleri anlamıyla "bilinir", bu nedenle ölçülen değer aslında veri oluşturma mekanizmasında çalışan değerdir. GLM modeli, tüm rastgeleliklerin tepki mekanizmasında olduğunu varsayar, ki bu genellikle şüphelidir!
kjetil b halvorsen

Yanıtlar:


5

Burada bazı nüanslar var ve bazı karışıklıklar yaratıyor olabilirler.

Lojistik bir gerilemenin varsayımlarını anladığınızı belirtiyorsunuz : " iid kalıntıları ...". Bunun tam olarak doğru olmadığını iddia ediyorum. Genel olarak Genel Doğrusal Model (yani regresyon) hakkında bunu söyleriz, ancak bu durumda artıkların birbirinden bağımsız olduğu, aynı dağılımın (tipik olarak normal) aynı ortalamaya (0) ve varyansa ( yani sabit varyans: varyans homojenliği / homoscedasticity). Ancak Bernoulli dağılımı ve Binom dağılımı için, varyans ortalamanın bir fonksiyonudur. Dolayısıyla, değişken değişken yanıtla mükemmel bir şekilde ilişkisiz olmadıkça, varyans sabit olamazdı. Bu, lojistik regresyonu değersiz kılacak kadar kısıtlayıcı bir varsayımdır. Belirttiğiniz pdf özetinde, "gözlemlerin istatistiksel bağımsızlığı" ile başlayan i-but-not-id(bunun hakkında çok sevimli olması anlamsız) varsayımları listelediğini not ediyorum .

Daha sonra, içinde @kjetilbhalvorsen notlar olarak yukarıdaki yorumun , (yani sizin bağımsız değişkenler) varsayılır değişken değerleri Genelleştirilmiş Lineer Modeli düzeltilmesi. Yani, belirli bir dağıtım varsayımı yapılmamıştır. Bu nedenle, sayı olup olmadıkları veya 0 ila 10, 1 ila 10000 veya -3.1415927 ila -2.718281828 arasında olması önemli değildir.

Ancak, @whuber'ın belirttiği gibi, göz önünde bulundurulması gereken bir şey , değişken boyutlardan birinde çok aşırı az sayıda veriniz varsa, bu noktaların analizinizin sonuçları üzerinde büyük etkisi olabilir . Yani, sadece bu noktalar nedeniyle belirli bir sonuç alabilirsiniz. Bunu düşünmenin bir yolu , modelinizi bu verilere dahil olan ve olmayan veri tipine uyarak bir tür hassasiyet analizi yapmaktır . Bu gözlemleri bırakmanın, bir çeşit sağlam istatistiksel analiz kullanmanın veya bu noktaların sahip olacağı aşırı kaldıracı en aza indirgemek için bu değişkenleri dönüştürmenin daha güvenli veya daha uygun olduğuna inanabilirsiniz . Bu düşünceleri "varsayımlar" olarak nitelendirmem, ancak uygun bir model geliştirmede kesinlikle önemli hususlardır.


1

Kesinlikle kontrol edeceğim bir şey, bağımsız değişkenlerinizin dağıtım özellikleridir. Çoğu zaman sayım verileriyle, orta ila şiddetli sağ eğim göreceksiniz. Bu durumda, log-lineer ilişkiyi kaybedeceğiniz için muhtemelen verilerinizi dönüştürmek isteyeceksiniz. Ancak hayır, bir lojistik (veya başka bir GLM) modeli kullanmak iyidir.


3
Sağ eğim 'log-lineer ilişkiyi' nasıl kaybeder?
Glen_b

3
Bu yorum benim için yanlış görünüyor. @Glen_b gibi, bunun log-lineer ilişkiyi nasıl kaybedeceğini görmüyorum. Her durumda, ilişkiyi doğrudan incelemek daha iyi olurdu (örneğin, çizerek).
Peter Flom - Monica'yı eski durumuna döndürün

2
Bir IV'ün doğrusal olmayan bir dönüşümü, log-lineer ilişkiyi kesinlikle başka bir şeye değiştirecektir, @Peter. Bu cevap temel olarak benim için doğru görünüyor.
whuber

1
@whuber Bir değişkenin doğrusal olmayan dönüşümünün, değişken ile başka bir değişken arasındaki ilişkiyi değiştireceğini kabul ediyorum. Bu oldukça açık görünüyor. Ama ne tür bir ilişkiden ne tür bir ilişkiye? İlişkinin nasıl değiştirileceğini varsaymak yerine, doğrudan ilişkiyi incelemiyorsunuz? Ayrıca, cevap kişinin log lineer ilişkisini kaybetmek istediğini söylüyor .
Peter Flom - Monica'yı eski durumuna döndürün

2
Bu iyi bir nokta @ Peter. Oysa bazı insanlar do ilişkiyi değiştirmek istiyorum; bu mutlaka yanlış bir kavram değildir. Doğrudan incelemenin doğru prosedür olduğunu kabul ediyorum: doğrusal ilişkiler oluşturmak için ilgili IV'lerin nasıl yeniden ifade edileceğini önerecektir.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.