En önemlisi modelin arkasındaki mantıktır. Değişken "yıllık patent sayısı" bir sayım değişkeni olduğundan Poisson regresyonu belirtilir. Her zamanki doğrusal regresyon kimlik bağlantılı bir Gauss GLM iken, (genellikle) log link fonksiyonuna sahip bir GLM (genelleştirilmiş lineer model). Burada, hata dağılımından (Poisson veya Gaussian) daha önemli, daha önemli olan günlük bağlantı işlevi gerçekten.
"Patentler" değişkeni kapsamlı bir değişkendir: bkz. Yoğun ve kapsamlı özellikler . Sıcaklık gibi yoğun değişkenler için doğrusal modeller (kimlik bağlantılı) genellikle uygundur. Ancak geniş bir değişkenle farklıdır. İlaç şirketlerinizden birinin iki farklı şirkete ayrıldığını düşünün. Daha sonra patentlerin iki yeni şirket arasında bölünmesi gerekiyordu. Ne değişkenlere ile olur, 'senin Regresyondaki s? Çalışan sayısı ve Ar-Ge bütçesi gibi değişkenlerin de bölünmesi gerekecektir.x
Genel olarak, bu bağlamda, yoğun bir değişken, şirket büyüklüğünden bağımsız bir değişkendir, geniş bir değişken ise (tipik olarak doğrusal olarak) şirket büyüklüğüne bağlıdır. Dolayısıyla, bir anlamda, regresyon denkleminde birçok farklı geniş değişkenimiz varsa, boyut etkilerini tekrar tekrar ölçüyoruz . Bu gereksiz görünüyor, bu yüzden mümkünse, değişkenleri çalışan başına RD bütçesi (veya toplam bütçenin yüzdesi olarak), aynı şekilde gelir vb. Gibi yoğun biçimde ifade etmeye çalışmalıyız. kapsamlı. Bu kapsamlı / yoğun değişken konunun başka bir tartışması için @ onestop'un ilişkili regresörlerle başa çıkma cevabına bakınız .
Buna cebirsel olarak bakalım:
Patentler, Bütçe (çalışan başına), Orijinal şirketteki Çalışanlar,
ve ise bölünmeden sonra karşılık gelen değişkenlerdir. Yukarıdaki gibi, tek geniş değişken olduğunu varsayalım ( ile birlikte , elbette geniş).P 1 , B 1 , E 1 P 2 , B 2 , E 2 E PP,B,EP1,B1,E1P2,B2,E2EP
: Daha sonra, bölme önce, rasgele parça bıraktı ile model, kimlik bağlantı bilgisi
Let bölünmüş fraksiyonları çok şirket 1 bölünme sonra elde ederiz
yana ancak . Aynı şekilde ikinci şirket için. Bu nedenle model, şirket boyutuna oldukça karmaşık bir şekilde bağlıdır, sadece regresyon katsayısıα , 1 - α α P
P=μ+β1E+β2B
α,1−ααPP1=αμ+αβ1E+αβ2B=αμ+β1E1+αβ2B1
P1=αP,E1=αEB1=BEşirket büyüklüğünden bağımsız olmak, diğer tüm parametreleri etkileyen büyüklük. Bu, sonuçların yorumlanmasını zorlaştırır, özellikle de verilerinizde değişen büyüklükte şirketleriniz varsa, o zaman bu katsayıları nasıl yorumlayacaksınız? Diğer verilere, vb. Dayalı diğer çalışmalarla karşılaştırma oldukça karmaşık hale gelir.
Şimdi, günlük bağlantısı işlevini kullanmanın yardımcı olup olamayacağını görelim. Yine, rahatsızlık terimleri olmadan idealize modeller yazıyoruz. Değişkenler yukarıdaki gibidir.
İlk olarak, bölünmeden önceki model:
Bölme işleminden sonra, şirket için:
Bu neredeyse doğru görünüyor, bir sorun dışında bağımlılığın bir kısmı pek işe yaramıyor. Bu nedenle, geniş formda değişebilen çalışan sayısının günlük ölçeğinde kullanılması gerektiğini görüyoruz. Sonra tekrar denemek, elde edersiniz:
P= exp(μ+β1E+β2B)
P1P1=exp(logα)exp(μ+β1E+β2B)=exp(logα+μ+β1E+β2B1)
E
önceki model:
Bölme işleminden sonra:
burada yeni bir . Şimdi, modeli tüm parametrelerin (kesişim hariç) şirket boyutundan bağımsız bir yorumu olduğu bir biçime koyduk.
P=exp(μ+β1logE+β2B)
P1P1P1P1=exp(logα)exp(μ+β1logE+β2B)=exp(logα+μ+β1logE+β2B1)=exp((1−β) günlüğüα + μ + β1günlükE1+ β2B1)= exp(μ'+ β1günlükE1+ β2B1)
μ'
Bu, sonuçların yorumlanmasını çok daha kolay hale getirir ve ayrıca diğer verileri kullanan çalışmalarla karşılaştırmalar, zamanla eğilimler vb. Kimlik formu ile boyuttan bağımsız yorumlara sahip parametrelerle bu formu elde edemezsiniz.
Sonuç: Log link fonksiyonu, belki Poisson regresyonu veya negatif-binomial ile bir GLM kullanın ya da ... Link fonksiyonu daha önemli büyüklük sıralarıdır!
Özetle, bir sayım değişkeni gibi kapsamlı bir cevap değişkeni için bir regresyon modeli oluştururken .
Değişkenleri yoğun biçimde ifade etmeye çalışın.
Kapsamlı olarak bırakılması gereken eş değişkenler: bunları günlüğe kaydedin (yukarıdaki cebir, en fazla bir tane geniş kapsamlı değişken olmasına bağlıdır).
Bir günlük bağlantısı işlevi kullanın.
Daha sonra, uyum temelli olanlar gibi diğer kriterler, rahatsızlık döneminin dağılımı gibi ikincil kararlar için kullanılabilir.