Uyum iyiliği ve doğrusal regresyon veya Poisson seçilecek model


19

Araştırmamda iki büyük ikilemle ilgili bazı tavsiyelere ihtiyacım var, bu da 3 büyük ilaç ve yenilik örneği. Yıllık patent sayısı bağımlı değişkendir.

Sorularım

  • İyi bir model için en önemli kriterler nelerdir? Daha fazla / daha az önemli olan nedir? Değişkenlerin çoğunun veya tamamının anlamlı olması mı? "F İSTATİSTİK" in sorunu mu? "Düzeltilmiş R kare" nin değeri midir?

  • İkincisi, araştırma için en uygun modele nasıl karar verebilirim? Sayım değişkeni olan patentlerin yanı sıra (belki Poisson sayısı da olabilir) Varlıkların getirisi, araştırma ve geliştirme bütçesi, tekrarlanan ortak (ikili değişken değil%), şirket büyüklüğü (çalışanlar) ve birkaç tane daha açıklayıcı değişkenlerim var. Doğrusal bir regresyon mu yoksa Poisson mı yapmalıyım?


5
Kjetil iyi ve ayrıntılı bir cevap verdi. Argümüyle tutarlı daha hızlı ve daha kısa bir görüş, "ikinci" olarak adlandırdığınız şeyin gerçekten önemli bir soru olduğudur. İlk önce bahsettiğiniz şey tesadüfi.
Nick Cox

Yanıtlar:


31

En önemlisi modelin arkasındaki mantıktır. Değişken "yıllık patent sayısı" bir sayım değişkeni olduğundan Poisson regresyonu belirtilir. Her zamanki doğrusal regresyon kimlik bağlantılı bir Gauss GLM iken, (genellikle) log link fonksiyonuna sahip bir GLM (genelleştirilmiş lineer model). Burada, hata dağılımından (Poisson veya Gaussian) daha önemli, daha önemli olan günlük bağlantı işlevi gerçekten.

"Patentler" değişkeni kapsamlı bir değişkendir: bkz. Yoğun ve kapsamlı özellikler . Sıcaklık gibi yoğun değişkenler için doğrusal modeller (kimlik bağlantılı) genellikle uygundur. Ancak geniş bir değişkenle farklıdır. İlaç şirketlerinizden birinin iki farklı şirkete ayrıldığını düşünün. Daha sonra patentlerin iki yeni şirket arasında bölünmesi gerekiyordu. Ne değişkenlere ile olur, 'senin Regresyondaki s? Çalışan sayısı ve Ar-Ge bütçesi gibi değişkenlerin de bölünmesi gerekecektir.x

Genel olarak, bu bağlamda, yoğun bir değişken, şirket büyüklüğünden bağımsız bir değişkendir, geniş bir değişken ise (tipik olarak doğrusal olarak) şirket büyüklüğüne bağlıdır. Dolayısıyla, bir anlamda, regresyon denkleminde birçok farklı geniş değişkenimiz varsa, boyut etkilerini tekrar tekrar ölçüyoruz . Bu gereksiz görünüyor, bu yüzden mümkünse, değişkenleri çalışan başına RD bütçesi (veya toplam bütçenin yüzdesi olarak), aynı şekilde gelir vb. Gibi yoğun biçimde ifade etmeye çalışmalıyız. kapsamlı. Bu kapsamlı / yoğun değişken konunun başka bir tartışması için @ onestop'un ilişkili regresörlerle başa çıkma cevabına bakınız .

Buna cebirsel olarak bakalım: Patentler, Bütçe (çalışan başına), Orijinal şirketteki Çalışanlar, ve ise bölünmeden sonra karşılık gelen değişkenlerdir. Yukarıdaki gibi, tek geniş değişken olduğunu varsayalım ( ile birlikte , elbette geniş).P 1 , B 1 , E 1 P 2 , B 2 , E 2 E PP,B,EP1,B1,E1P2,B2,E2EP

: Daha sonra, bölme önce, rasgele parça bıraktı ile model, kimlik bağlantı bilgisi Let bölünmüş fraksiyonları çok şirket 1 bölünme sonra elde ederiz yana ancak . Aynı şekilde ikinci şirket için. Bu nedenle model, şirket boyutuna oldukça karmaşık bir şekilde bağlıdır, sadece regresyon katsayısıα , 1 - α α P

P=μ+β1E+β2B
α,1α
αP=αμ+αβ1E+αβ2BP1=αμ+β1E1+αβ2B1
P1=αP,E1=αEB1=BEşirket büyüklüğünden bağımsız olmak, diğer tüm parametreleri etkileyen büyüklük. Bu, sonuçların yorumlanmasını zorlaştırır, özellikle de verilerinizde değişen büyüklükte şirketleriniz varsa, o zaman bu katsayıları nasıl yorumlayacaksınız? Diğer verilere, vb. Dayalı diğer çalışmalarla karşılaştırma oldukça karmaşık hale gelir.

Şimdi, günlük bağlantısı işlevini kullanmanın yardımcı olup olamayacağını görelim. Yine, rahatsızlık terimleri olmadan idealize modeller yazıyoruz. Değişkenler yukarıdaki gibidir.

İlk olarak, bölünmeden önceki model: Bölme işleminden sonra, şirket için: Bu neredeyse doğru görünüyor, bir sorun dışında bağımlılığın bir kısmı pek işe yaramıyor. Bu nedenle, geniş formda değişebilen çalışan sayısının günlük ölçeğinde kullanılması gerektiğini görüyoruz. Sonra tekrar denemek, elde edersiniz:

P=exp(μ+β1E+β2B)
P1=exp(logα)exp(μ+β1E+β2B)P1=exp(logα+μ+β1E+β2B1)
E

önceki model: Bölme işleminden sonra: burada yeni bir . Şimdi, modeli tüm parametrelerin (kesişim hariç) şirket boyutundan bağımsız bir yorumu olduğu bir biçime koyduk.

P=exp(μ+β1logE+β2B)
P1=tecrübe(günlükα)tecrübe(μ+β1günlükE+β2B)P1=tecrübe(günlükα+μ+β1günlükE+β2B1)P1=tecrübe((1-β)günlükα+μ+β1günlükE1+β2B1)P1=tecrübe(μ'+β1günlükE1+β2B1)
μ'

Bu, sonuçların yorumlanmasını çok daha kolay hale getirir ve ayrıca diğer verileri kullanan çalışmalarla karşılaştırmalar, zamanla eğilimler vb. Kimlik formu ile boyuttan bağımsız yorumlara sahip parametrelerle bu formu elde edemezsiniz.

Sonuç: Log link fonksiyonu, belki Poisson regresyonu veya negatif-binomial ile bir GLM kullanın ya da ... Link fonksiyonu daha önemli büyüklük sıralarıdır!

Özetle, bir sayım değişkeni gibi kapsamlı bir cevap değişkeni için bir regresyon modeli oluştururken .

  1. Değişkenleri yoğun biçimde ifade etmeye çalışın.

  2. Kapsamlı olarak bırakılması gereken eş değişkenler: bunları günlüğe kaydedin (yukarıdaki cebir, en fazla bir tane geniş kapsamlı değişken olmasına bağlıdır).

  3. Bir günlük bağlantısı işlevi kullanın.

Daha sonra, uyum temelli olanlar gibi diğer kriterler, rahatsızlık döneminin dağılımı gibi ikincil kararlar için kullanılabilir.


3
Bir Poisson regresyon düşünce oldu günlüğü link ile bir GLS regresyon?
Sideshow Bob

1
Genellikle evet, ama aynı zamanda kimlikli bir Poisson regresyonunu (veya karekök gibi) da düşünebilirsiniz. Ancak buradaki argümanım genellikle günlük bağlantısını istediğinizi gösteriyor.
kjetil b halvorsen

@ kjetil b halvorsen, teriminin düzeltilmesinde nedir? (1-β)μ
garej
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.