Arasındaki fark nedir Logit ve Probit model ?
Ne zaman lojistik regresyonun ne zaman kullanılacağını ve ne zaman Probit'in kullanılacağını bilmekle ilgileniyorum.
R kullanarak tanımlayan herhangi bir literatür varsa , bu da yardımcı olacaktır.
Arasındaki fark nedir Logit ve Probit model ?
Ne zaman lojistik regresyonun ne zaman kullanılacağını ve ne zaman Probit'in kullanılacağını bilmekle ilgileniyorum.
R kullanarak tanımlayan herhangi bir literatür varsa , bu da yardımcı olacaktır.
Yanıtlar:
Bunlar esas olarak link fonksiyonunda farklılık gösterir.
Logit'te:
Probit'te: (Kümülatif normal pdf)
Diğer bir deyişle, lojistik biraz daha düz yazılara sahiptir. yani probit eğrisi, eksene logit eğrisinden daha hızlı yaklaşır.
Logit probitten daha kolay yorumluyor. Lojistik regresyon, log kütük oranlarının modellenmesi olarak yorumlanabilir (yani, günde> 25 sigara içenlerin 65 yaşından önce ölme olasılıkları 6 kat daha fazladır). Genellikle insanlar modellemeye logit ile başlar. Logit vs probit için karar vermek için her bir modelin olabilirlik değerini kullanabilirsiniz.
Standart bir doğrusal model (örneğin, basit bir regresyon modeli), iki 'bölüme' sahip olarak düşünülebilir. Bunlara yapısal bileşen ve rastgele bileşen denir . Örneğin:
İlk iki terim (yani, ) yapısal bileşen ve
β 0 + β 1 x ε g ( μ ) = p 0 + β 1 x β 0 + β 1 x g ( ) μ
Link fonksiyonu GLiM'lerin anahtarıdır: cevap değişkeninin dağılımı normal olmadığı için yapısal bileşeni cevaba bağlamamızı sağlar - onları 'bağlar' (dolayısıyla adı). Ayrıca, logit ve probit bağlantılar (@vinux’un açıkladığı gibi) ve link işlevlerini anlamak, hangisini ne zaman kullanacağımızı akıllıca seçmemize izin vereceğinden, sorunuzun anahtarıdır. Kabul edilebilir birçok bağlantı işlevi bulunabilse de, genellikle özel olanı vardır. Yabancı otlara fazla yaklaşmak istemedikçe (bu çok teknik olabilir), öngörülen ortalama, , yanıt dağılımının kanonik konum parametresi ile aynı şekilde matematiksel olarak aynı olmayacaktır ;p ( 0 , 1 ) ln ( - ln ( 1 - μ ) ). Bunun avantajı " için yeterli bir istatistik bulunmaması" ( German Rodriguez ). İkili cevap verisi için kanonik bağlantı (daha spesifik olarak binom dağılımı) logit'tir. Bununla birlikte, yapısal bileşeni aralık eşleştirebilen ve dolayısıyla kabul edilebilir olan birçok işlev vardır ; Probit de popülerdir, ancak bazen kullanılan başka seçenekler de vardır (tamamlayıcı log günlüğü, , genellikle 'cloglog' olarak adlandırılır). Bu nedenle, birçok olası bağlantı işlevi vardır ve bağlantı işlevi seçimi çok önemli olabilir. Seçim aşağıdakilerin birleşimine göre yapılmalıdır:
Bu fikirleri daha net anlamak için ihtiyaç duyulan biraz kavramsal arka planı ele aldıktan sonra (beni affet), bu düşüncelerin bağlantı seçiminizi yönlendirmek için nasıl kullanılabileceğini açıklayacağım. (@ David'in yorumunun pratikte neden farklı bağlantıların seçildiğini doğru bir şekilde yakaladığını düşünüyorum .) Cevap değişkeniniz bir Bernoulli denemesinin sonucuysa (yani, veya ) başlayalım. binom ve gerçekte modellediğiniz şey bir gözlemin olması ihtimalidir (yani, ). Sonuç olarak, gerçek sayı satırını aralıklarla eşleyen herhangi bir işlev1 1 π ( Y = 1 ) ( - ∞ , + ∞ ) ( 0 , 1 )çalışacak.
Temel kuramınızın bakış açısına göre, değişkenlerinizin başarı olasılığına doğrudan bağlı olduğunu düşünüyorsanız, tipik olarak lojistik regresyon seçersiniz, çünkü bu kanonik bağlantıdır. Ancak, aşağıdaki örneği göz önünde bulundurun: high_Blood_Pressure
Bazı değişkenlerin bir fonksiyonu olarak modellemeniz istenir . Kan basıncı normalde popülasyonda dağılır (aslında bilmiyorum ama makul prima facie gibi görünüyor), yine de, klinisyenler çalışma sırasında onu tiksindirdi (yani, sadece "yüksek-BP" veya "normal" olarak kaydedildiler) ). Bu durumda, teorik sebeplerden ötürü probit tercih edilebilir. Bu, @Elvis'in "ikili sonucunuz gizli bir Gauss değişkenine bağlıdır" ile kastettiği şeydir.simetrik , başarı olasılığının sıfırdan yavaşça arttığına inanıyorsanız, ancak bir taneye yaklaştıkça daha çabuk azalır, takunya çağırılır, vb.
Son olarak, modelin verilere yapılan ampirik uyumunun, söz konusu link fonksiyonlarının şekilleri (farklı olarak, logit ve probit) değişmediği sürece, bir link seçiminde yardımcı olma ihtimalinin düşük olduğuna dikkat edin. Örneğin, aşağıdaki simülasyonu göz önünde bulundurun:
set.seed(1)
probLower = vector(length=1000)
for(i in 1:1000){
x = rnorm(1000)
y = rbinom(n=1000, size=1, prob=pnorm(x))
logitModel = glm(y~x, family=binomial(link="logit"))
probitModel = glm(y~x, family=binomial(link="probit"))
probLower[i] = deviance(probitModel)<deviance(logitModel)
}
sum(probLower)/1000
[1] 0.695
Verilerin bir probit model tarafından üretildiğini bildiğimiz halde ve 1000 veri noktasına sahip olduğumuzda bile, probit modeli sadece zamanın% 70'ine ve daha sonra bile çoğu zaman önemsiz bir miktarda daha iyi bir sonuç verir. Son yinelemeyi düşünün:
deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806
Bunun nedeni basitçe logit ve probit link fonksiyonlarının aynı girdiler verildiğinde çok benzer çıktılar vermesidir.
Logit ve probit fonksiyonları pratik olarak aynıdır, ancak @vinux'un belirttiği gibi logit 'köşeyi döndüğünde' sınırlardan biraz daha uzaktır. ( optimum şekilde hizalanması için, logit değerinin probit için karşılık gelen eğim değerinin katı olması gerektiğini . Ayrıca, tıkanıklığı üst üste koyabilmeleri için biraz kaydırdım. birbirlerinden daha fazla, ancak figürü daha okunaklı tutmak için onu bir kenara bıraktım. 0'dan daha erken, ancak daha yavaş bir şekilde çekmeye başlar ve 1'e yaklaşır ve sonra keskin bir şekilde döner. ≈ 1,7
Link fonksiyonları hakkında birkaç şey söylenebilir. İlk olarak, kimlik işlevini ( ) bir bağlantı işlevi olarak kabul etmek, standart doğrusal modeli genelleştirilmiş doğrusal modelin özel bir durumu olarak anlamamızı sağlar (yani, yanıt dağılımı normaldir ve bağlantı kimlik işlevidir). Ayrıca, bağlantının başlattığı dönüşümün gerçek yanıt verilerini değil, yanıt dağılımını yöneten parametreye ( ) uygun şekilde uygulandığını bilmek de önemlidir.u u = g - 1 ( β 0 + β 1 x ) π ( Y ) = exp ( β 0 + β 1 x ). Son olarak, pratikte, dönüştürmek için altta yatan parametreye asla sahip olmadığımızdan, bu modellerin tartışılmasında, çoğu zaman gerçek bağlantı olarak kabul edilenler örtük bırakılır ve model, bunun yerine yapısal bileşene uygulanan bağlantı işlevinin tersi ile temsil edilir. . Yani:
Örneğin, lojistik regresyon genellikle gösterilir:
yerine:
Genelleştirilmiş doğrusal modelin hızlı ve net, ancak sağlam bir genel görünümü için, bu cevabın bazı kısımları için eğilmek zorunda olduğum halde , Fitzmaurice, Laird, & Ware (2004) , bölüm 10'a bakınız . - ve diğer - maddi, herhangi bir hata benim olur). Bu modellerin R'ye nasıl takılacağı hakkında , temel paketteki ? Glm fonksiyonunun belgelerine bakın .
(Son bir not daha sonra eklendi :) Bazen insanların probit kullanmamanız gerektiğini söylediklerini duyuyorum çünkü yorumlanamıyor. Bu doğru değildir, ancak betaların yorumlanması daha az sezgiseldir. Lojistik regresyon ile, bir tek birim değiştirmek bir ilişkili 'başarı' (alternatif olarak, bir log oran değişikliği her şey eşit olduğunda, oran olarak kat fark). Bir probit ile, bu 'nin bir değişikliği olur . ( Örneğin, 1 ve 2 puanlarına sahip bir veri kümesinde iki gözlem düşünün .) Bunları öngörülen olasılıklara dönüştürmek için normal CDF'den geçirebilirsiniz.β 1 exp ( β 1 ) β 1 z z z, ya da bir masaya onları aramak .
(Hem @vinux hem de @Elvis için +1. Burada, bunlar hakkında düşünmek ve sonra logit ile probit arasındaki seçimi ele almak için bunu kullanmak için daha geniş bir çerçeve sağlamaya çalıştım.)
Vinux'un cevabına ek olarak, zaten en önemli olanı da söyler:
logit regresyonundaki katsayıları , oran oranı bakımından doğal yorumlara sahiptir;
İkili sonucunuzun gizli bir Gauss değişkeni olan [eq. 1] ile deterministik bir şekilde: tam olarak olduğunda .ϵ ∼ N ( 0 , 1 ) Y = 1 Z > 0
Eğer sonuç düşünüyorsanız Daha genel olarak, ve daha çok doğal, probistic regresyon daha doğal bir modeldir tam olarak ne zaman bir bir eşik değerin ile, . Bu söz konusu durum, indirgenebilir görmek kolaydır: yeniden ölçeklendirmek olarak ; bu denklemi kontrol etmek kolaydır [eq. 1] hala tutar (katsayıları yeniden ölçeklendir ve kesmeyi çevir). Bu modeller, örneğin, gözlemlenmeyen bir sürekli değişken olduğu tıbbi bağlamlarda ve , olduğunda ortaya çıkan bir hastalık olarakZ 0 = X ′ β 0 + ϵ 0 c ϵ ∼ N ( 0 , σ 2 ) Z 0 Z = 1Z0YZ0 bazı "patolojik eşiği" aşıyor.
Hem logit hem de probit modeller sadece modeldir . Box'un söylediği gibi "Tüm modeller yanlış, bazıları yararlıdır"! Her iki model de , sonuç üzerindeki etkisinin varlığını tespit etmenizi sağlar ; Bazı çok özel durumlar dışında, hiçbiri “gerçekten doğru” olmayacak ve yorumlamaları dikkatli yapılmalıdır.Y
İfadenizle ilgili olarak
Lojistik regresyonun ne zaman ve ne zaman probit kullanılacağını bilmekle daha çok ilgileniyorum.
İkisi arasında seçim yaparken göz önünde bulundurulması gereken hususları ortaya koyan çok sayıda cevap var, ancak henüz belirtilmemiş önemli bir husus var: İlginiz, ikili efektlerdeki kümelenmiş derneklere karışık etkiler lojistiği kullanarak bakmak veya probit modelleri, probit modelini tercih etmek için teorik bir temel vardır. Bu, elbette, lojistik modeli tercih etmek için önceden bir sebep olmadığını varsaymaktadır (örneğin, bir simülasyon yapıyorsanız ve bunun gerçek model olduğunu biliyorsanız).
İlk olarak , bunun neden doğru olduğunu görmek için ilk önce bu modellerin her ikisinin de eşikli sürekli regresyon modelleri olarak görülebildiğini not edin. Bir örnek olarak, gözlem için basit doğrusal karışık etkiler modeli dikkate küme içindeki :
burada küme rasgele etkidir ve hata terimdir. Daha sonra hem lojistik hem de probit regresyon modelleri, bu modelden üretilip eşik değeri 0:
Eğer terim normalde dağıtılır, bir probit regresyon var ve lojistik olarak dağıtılır eğer bir lojistik regresyon modeli var. Ölçek tanımlanmadığından, bu artık hatalar sırasıyla standart normal ve standart lojistik olarak belirlenmiştir.
Pearson (1900) , çok değişkenli normal verilerin kategorik olarak üretilip eşik hale getirilmesi durumunda, altta yatan değişkenler arasındaki korelasyonların hala istatistiksel olarak tanımlandığını göstermiştir - bu korelasyonlar, polikrik korelasyonlar olarak adlandırılır ve ikili duruma özgü olarak, tetrakorik korelasyonlar olarak adlandırılır . Bu, bir probit modelinde, temelde normal dağılmış değişkenlerin sınıf içi korelasyon katsayısının:
bu , probit durumunda, temeldeki gizli değişkenlerin eklem dağılımını tamamen karakterize edebileceğiniz anlamına gelir .
Lojistik modelde, lojistik modeldeki rastgele etki varyansı hala tanımlanmaktadır, ancak bağımlılık yapısını (ve dolayısıyla ortak dağılımı) tam olarak tanımlamamaktadır, çünkü normal ve lojistik rastgele bir değişken arasında olmayan bir karışımdır . özelliği, ortalama ve kovaryans matrisi ile tam olarak belirtilmesidir. Alttaki gizli değişkenler için bu garip parametrik varsayımı not etmek, genel olarak yorumlamak için lojistik modeldeki rastgele etkilerin yorumlanmasını daha az belirgin hale getirir.
Önceki (mükemmel) cevaplarda değinilmeyen önemli bir nokta, gerçek tahmin aşamasıdır. Multinomial logit modellerinde, birleştirilmesi kolay olan ve seçim olasılığının kapalı formda bir ifadesine yol açan bir PDF bulunur. Normal dağılımın yoğunluk işlevi o kadar kolay entegre değildir, bu nedenle probit modeller tipik olarak simülasyon gerektirir. Dolayısıyla her iki model de gerçek dünyadaki durumların soyutlamaları olsa da, logit genellikle daha büyük problemlerde (çoklu alternatifler veya büyük veri setleri) kullanmaktan daha hızlıdır.
Bunu daha net görmek için, belirli bir sonucun seçilme olasılığı, yordayıcı değişkenlerinin ve hata terimlerinin bir fonksiyonudur ( Train'den sonra )
I f ( x )
Probit modeller için böyle uygun bir form yoktur.
Söyleyeceğim şey, bugüne kadar söylenenleri hiçbir şekilde geçersiz kılmaz. Sadece probit modellerin IIA (Alakasız alternatiflerin bağımsızlığı) varsayımlarından muzdarip olmadığına ve logit modelinin sahip olduğuna işaret etmek istiyorum.
Trenin mükemmel kitabından bir örnek kullanmak için. Arabamda mavi otobüse mi bineceğimi veya arabamı sürüp sürmeyeceğimi öngören bir logit varsa, kırmızı otobüs eklemek hem orantılı olarak hem de hem de mavi otobüsden çekilir. Ancak probit bir model kullanarak bu sorunu önleyebilirsiniz. Temel olarak, her iki orantılı olarak çizim yapmak yerine, daha yakın alternatifler olarak mavi veriyolundan daha fazla çizim yapabilirsiniz.
Yaptığın fedakarlık, yukarıda belirtildiği gibi kapalı formda bir çözüm bulunmamasıdır. IIA meseleleri konusunda endişeli olduğumda Probit benim başım dönüyor. Bu, IIA'yı bir logit çerçevede (GEV dağıtımları) aşmanın yollarının olmadığını söylemez. Ama ben her zaman bu tür modellere, problemin etrafını gizlice sokmuş olarak baktım. Alabileceğiniz hesaplama hızları ile, probit ile gidelim derdim.
Logit ve probit arasındaki en bilinen farklardan biri (teorik) regresyon artıkları dağılımıdır: probit için normal, logit için lojistik (lütfen bakınız: Koop G. Ekonometriye Giriş Chichester, Wiley: 2008: 280).
Soruya, sadece “lojistik regresyonun ne zaman ve probitlerin ne zaman kullanılacağına”, istatistiksel ayrıntılara girmeden, ancak istatistiklere dayanan kararlara odaklanmaya odaklanan pratik bir cevap veriyorum. Bu sorunun cevabı iki ana konuya dayanıyor: disiplinli bir tercihiniz var mı ve sadece hangi modelin verilerinize daha uygun olduğuna dikkat ediyor musunuz?
Temel fark
Hem logit hem de probit modeller, bağımlı bir yanıt değişkeninin 0 veya 1 olması olasılığını veren istatistiksel modeller sunar. Çok benzerdirler ve genellikle pratik olarak özdevinimli sonuçlar verirler, ancak olasılıkları hesaplamak için farklı işlevler kullandıkları için sonuçları bazen biraz farklı.
Disiplin tercihi
Bazı akademik disiplinler genellikle birini veya diğerini tercih eder. Sonuçlarınızı belirli bir geleneksel tercihi olan bir akademik disipline yayınlayacak ya da sunacaksanız, bulgularınızın daha kolay kabul edilebilmesi için tercihinizi belirtin. Örneğin ( Yöntem Danışmanlarından ),
Logit - lojistik regresyon olarak da bilinir - epidemiyoloji gibi sağlık bilimlerinde kısmen popülerdir, çünkü katsayılar olasılık oranları olarak yorumlanabilir. Probit modeller, daha gelişmiş ekonometrik ortamlarda (heteroskedastik probit modeller olarak bilinir) sabit olmayan hata değişikliklerini hesaba katarak genelleştirilebilir ve bu nedenle bazı bağlamlarda ekonomistler ve siyaset bilimciler tarafından kullanılır.
Mesele şu ki, sonuçlardaki farklılıklar o kadar küçüktür ki, genel izleyicinizin sonuçlarınızı anlama kabiliyeti iki yaklaşım arasındaki ufak farklardan daha ağır basar.
Tek umursadığın daha uygunsa ...
Araştırma birini veya bu soruya başka, sonra benim çalışma tercih etmeyen bir disiplin ise (daha iyidir, logit veya probit) kullanımı genellikle iyidir sonucuna götürdü etti probit beri neredeyse her zaman olacak, logit modelininkine eşit veya daha yüksek olan verilere istatistiksel bir uygunluk verin. Logit modelleri daha iyi bir uyum sağladığında en dikkat çeken istisna, "aşırı bağımsız değişkenler" durumudur (aşağıda açıklarım).
Sonucum neredeyse tamamen (sayısız kaynak araştırdıktan sonra) Hahn, ED & Soyer, R., 2005'e dayanıyor. Probit ve logit modelleri: Çok değişkenli alandaki farklılıklar. : Boş http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf . İşte logit ve probit çok değişkenli modellerin verilere daha iyi bir uyum sağlayıp sağlamadığına ilişkin bu makaledeki pratik karar sonuçlarının özeti (bu sonuç aynı zamanda tek değişkenli modeller için de geçerlidir, ancak bunlar sadece iki bağımsız değişken için simüle edilmiş etkiler):
Çoğu senaryoda, logit ve probit modelleri aşağıdaki iki istisna dışında verilere eşit derecede uygundur.
"Aşırı bağımsız değişkenler" durumunda logit kesinlikle daha iyidir . Bunlar, özellikle büyük veya küçük bir değerin büyük oranda çoğunlukla bağımlı değişkenin 0 veya 1 olup olmadığını belirlediği, diğer değişkenlerin çoğunun etkilerini geçersiz kıldığı bağımsız değişkenlerdir. Hahn ve Soyer resmi olarak tanımladılar (s. 4):
Aşırı bir bağımsız değişken seviyesi, üç olayın sonucunu içerir. Birincisi, bir aşırı bağımsız değişken seviyesi, bir bağımsız değişkenin üst veya alt ucunda meydana gelir. Örneğin, bağımsız değişkenin x'in 1, 2 ve 3.2 değerlerini alacağını söyleyin. Aşırı bağımsız değişken seviyesi, x = 3.2 (veya x = 1) 'deki değerleri içerir. İkincisi, toplam n'nin önemli bir kısmı (örneğin,% 60) bu seviyede olmalıdır. Üçüncüsü, bu seviyedeki başarı ihtimalinin kendisi aşırı olmalıdır (örneğin,% 99'dan büyük).
Hahn ve Soyer'in analizine dayanarak, benim sonucum, bağımsız değişkenler haricinde her zaman probit modelleri kullanmak, bu durumda logit seçilmelidir . Aşırı bağımsız değişkenler o kadar yaygın değildir ve tanınması oldukça kolay olmalıdır. Bu kural ile, modelin rastgele etki modeli olup olmadığı önemli değildir. Bir modelin rastgele etkiler modeli olduğu durumlarda (probit tercih edilir) ancak aşırı bağımsız değişkenler vardır (logit tercih edilir); aşırı bağımsız değişkenler daha baskındır ve bu nedenle logit tercih edilir.
Aşağıda, probit ve logit'i özel durumlar olarak barındıran ve hangisinin daha uygun olduğunu test edebileceği bir tahminciyi açıklıyorum.
Hem probit hem de logit, gizli bir değişken modelinde yuvalanabilir,
gözlemlenen bileşen nerede
Klein & Spady'de ölçüt işlevi yerine
Çok benzerler.
Veya eşdeğer olarak :
Lojistik ve probit arasındaki farklar, lojistik ve normal dağılımlar arasındaki farktan kaynaklanmaktadır. O kadar yok. Ayarlandığında, şöyle görünürler:
Lojistik daha ağır bir kuyruğa sahiptir. Bu, küçük (<% 1) veya yüksek (>% 99) olasılık olaylarının nasıl yapıldığını biraz etkileyebilir. Pratik olarak, çoğu durumda fark bile fark edilmez: logit ve probit esasen aynı şeyi tahmin eder. Bkz http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article
"Felsefi" olarak, lojistik regresyon, maksimum entropi ilkesine eşdeğer olarak haklı gösterilebilir: http://www.win-vector.com/blog/2011/09/the-equivalence- of-logistic-regression-and-maximum -entropy-modelleri /
Hesaplama açısından: lojistik kolaydır çünkü lojistik dağılımın kümülatif dağılımının normal dağılımın aksine kapalı bir formülü vardır. Ancak normal dağılımlar, çok boyutluya gittiğinizde iyi özelliklere sahiptir, bu nedenle gelişmiş durumlarda sıklıkla probit tercih edilir.