Logit ve probit modelleri arasındaki fark

299

Arasındaki fark nedir Logit ve Probit model ?

Ne zaman lojistik regresyonun ne zaman kullanılacağını ve ne zaman Probit'in kullanılacağını bilmekle ilgileniyorum.

R kullanarak tanımlayan herhangi bir literatür varsa , bu da yardımcı olacaktır.

— Beta
kaynak

5

1

Bir zamanlar probitin marjinal olarak daha iyi oturduğunu görebildiğimiz kapsamlı bir (bioassay) veri setine sahiptim, ancak sonuçlar için hiçbir fark yaratmadı.

— kjetil b halvorsen

1

@Alyas Şah: ve bu, benim probit verilerimin (marjinal olarak) neden daha iyi sonuçlandığına dair açıklamadır - çünkü belirli bir dozun üstünde, ölüm oranı% 100, bazı eşiğin altında ise, ölüm oranı% 0'dır, bu yüzden yavaş yaklaşımı görmüyoruz. logit!

— kjetil b halvorsen

3

Gerçek veriler için, logit veya probit'ten elde edilen verilere karşı çıkarak, konuya yönelik düşünceli bir yaklaşım, model karşılaştırması yapmak olacaktır. Deneyimlerime göre, veriler nadiren iki modelden birine doğru eğiliyor.

— Xi'an

2

Lojistik dağılımın pratik kullanımının normal CDF'ye benzerliğinden ve çok daha basit kümülatif dağılım işlevinden kaynaklandığını duydum. Gerçekten de normal CDF, değerlendirilmesi gereken bir entegrali içerir - sanırım günlerde hesaplamalı olarak pahalıydı.

— dv_bn

144

Bunlar esas olarak link fonksiyonunda farklılık gösterir.

Logit'te: $\Pr(Y=1 \mid X) = [1 + e^{-X'\beta}]^{-1}$

Probit'te: (Kümülatif normal pdf) $\Pr(Y=1 \mid X) = \Phi(X'\beta)$

Diğer bir deyişle, lojistik biraz daha düz yazılara sahiptir. yani probit eğrisi, eksene logit eğrisinden daha hızlı yaklaşır.

Logit probitten daha kolay yorumluyor. Lojistik regresyon, log kütük oranlarının modellenmesi olarak yorumlanabilir (yani, günde> 25 sigara içenlerin 65 yaşından önce ölme olasılıkları 6 kat daha fazladır). Genellikle insanlar modellemeye logit ile başlar. Logit vs probit için karar vermek için her bir modelin olabilirlik değerini kullanabilirsiniz.

— vinux
kaynak

6

Cevabınız için teşekkürler Vinux. Ama ne zaman logit kullanılacağını bilmek ve probit kullanmak istiyorum. Logit’in probitten daha popüler olduğunu biliyorum ve logit regresyon kullandığımız vakaların çoğu. Ancak Probit modellerinin daha yararlı olduğu bazı durumlar vardır. Lütfen bana bu davaların ne olduğunu söyler misiniz? Ve bu davaların normal davalardan nasıl ayırt edileceği.

— Beta

5

Eğrinin kuyruk kısmıyla ilgilendiğiniz zaman, bazen logit veya probit seçimi önemlidir. Probit veya logit seçmek için kesin bir kural yoktur. Olasılık olasılığına bakarak (veya log olasılığını) veya AIC'yi seçerek modeli seçebilirsiniz.

— Vinux

12

Tavsiye için teşekkürler! Logit vs probit arasında nasıl bir seçim yapabileceğinizi açıklayabilir misiniz? Özellikle: (1) Eğrinin kuyruk kısmıyla ne zaman ilgilendiğinizi nasıl anlarım? (2) Olasılığa, günlük olasılığına veya AIC'ye bakarak bir modeli nasıl seçerim? Özel olarak neye bakmalıyım ve bu hangi modelin kullanılacağı konusundaki kararımı nasıl etkilemeli?

— DW

Peki, logitin probit ile karşılaştırıldığında başarısız olduğu örnekler verebilir misiniz? Aklında olanları bulamıyorum.

— Wok

1

Burada uçar , matrisinin transpozisyonunu gösterir .

X^{'}

$X'$

X

$X$

— Mathemanic

445

Standart bir doğrusal model (örneğin, basit bir regresyon modeli), iki 'bölüme' sahip olarak düşünülebilir. Bunlara yapısal bileşen ve rastgele bileşen denir . Örneğin: İlk iki terim (yani, ) yapısal bileşen ve

Y = β_{0} + β_{1} X + ε where ε \sim N (0, σ^{2})

$Y=\beta_0+\beta_1X+\varepsilon \\ \text{where } \varepsilon\sim\mathcal{N}(0,\sigma^2)$

β_{0} + β_{1} X

$\beta_0+\beta_1X$

ε

$\varepsilon$ (normal dağılmış bir hata terimi gösterir) rastgele bileşendir. Yanıt değişkeni normal olarak dağılmadığında (örneğin, yanıt değişkeniniz ikili ise) bu yaklaşım geçerli olmayabilir. Genel lineer model(GLiM) bu gibi durumları ele almak için geliştirilmiştir ve logit ve probit modelleri, ikili değişkenler için uygun olan özel GLiM vakalarıdır (ya da prosese bazı adaptasyonlarla çok kategorili cevap değişkenleri). Bir GLiM üç parçaya, yapısal bir bileşene , bir bağlantı işlevine ve bir yanıt dağılımına sahiptir . Örneğin: İşte yine yapısal bileşen, link işlevi ve

g (μ) = β_{0} + β_{1} X

$g(\mu)=\beta_0+\beta_1X$

β_{0} + β_{1} X

$\beta_0+\beta_1X$

g ()

$g()$

μ

$\mu$ eş değişkenli uzayda belirli bir noktada koşullu cevap dağılımının bir ortalamasıdır. Buradaki yapısal bileşen hakkında düşünme biçimimiz, standart doğrusal modellerle ne düşündüğümüzden gerçekten farklı değil; Aslında, bu GLiM'lerin en büyük avantajlarından biri. Birçok dağılım için varyans, koşullu bir ortama uyan (ve bir cevap dağılımını verdiğinize göre) ortalamanın bir işlevi olduğundan, doğrusal bir modeldeki rastgele bileşenin analogunu otomatik olarak muhasebeleştirdiniz (NB: bu olabilir pratikte daha karmaşık).

Link fonksiyonu GLiM'lerin anahtarıdır: cevap değişkeninin dağılımı normal olmadığı için yapısal bileşeni cevaba bağlamamızı sağlar - onları 'bağlar' (dolayısıyla adı). Ayrıca, logit ve probit bağlantılar (@vinux’un açıkladığı gibi) ve link işlevlerini anlamak, hangisini ne zaman kullanacağımızı akıllıca seçmemize izin vereceğinden, sorunuzun anahtarıdır. Kabul edilebilir birçok bağlantı işlevi bulunabilse de, genellikle özel olanı vardır. Yabancı otlara fazla yaklaşmak istemedikçe (bu çok teknik olabilir), öngörülen ortalama, , yanıt dağılımının kanonik konum parametresi ile aynı şekilde matematiksel olarak aynı olmayacaktır ; $\mu$ . Bunun avantajı " için yeterli bir istatistik bulunmaması" ( German Rodriguez ). İkili cevap verisi için kanonik bağlantı (daha spesifik olarak binom dağılımı) logit'tir. Bununla birlikte, yapısal bileşeni aralık eşleştirebilen ve dolayısıyla kabul edilebilir olan birçok işlev vardır ; Probit de popülerdir, ancak bazen kullanılan başka seçenekler de vardır (tamamlayıcı log günlüğü, , genellikle 'cloglog' olarak adlandırılır). Bu nedenle, birçok olası bağlantı işlevi vardır ve bağlantı işlevi seçimi çok önemli olabilir. Seçim aşağıdakilerin birleşimine göre yapılmalıdır: $\beta$ $(0,1)$ $\ln(-\ln(1-\mu))$

Tepki dağılımı bilgisi,
Teorik düşünceler ve
Verilere ampirik uyum.

Bu fikirleri daha net anlamak için ihtiyaç duyulan biraz kavramsal arka planı ele aldıktan sonra (beni affet), bu düşüncelerin bağlantı seçiminizi yönlendirmek için nasıl kullanılabileceğini açıklayacağım. (@ David'in yorumunun pratikte neden farklı bağlantıların seçildiğini doğru bir şekilde yakaladığını düşünüyorum .) Cevap değişkeniniz bir Bernoulli denemesinin sonucuysa (yani, veya ) başlayalım. binom ve gerçekte modellediğiniz şey bir gözlemin olması ihtimalidir (yani, ). Sonuç olarak, gerçek sayı satırını aralıklarla eşleyen herhangi bir işlev $0$ $1$ $1$ $\pi(Y=1)$ $(-\infty,+\infty)$ $(0,1)$ çalışacak.

Temel kuramınızın bakış açısına göre, değişkenlerinizin başarı olasılığına doğrudan bağlı olduğunu düşünüyorsanız, tipik olarak lojistik regresyon seçersiniz, çünkü bu kanonik bağlantıdır. Ancak, aşağıdaki örneği göz önünde bulundurun: high_Blood_PressureBazı değişkenlerin bir fonksiyonu olarak modellemeniz istenir . Kan basıncı normalde popülasyonda dağılır (aslında bilmiyorum ama makul prima facie gibi görünüyor), yine de, klinisyenler çalışma sırasında onu tiksindirdi (yani, sadece "yüksek-BP" veya "normal" olarak kaydedildiler) ). Bu durumda, teorik sebeplerden ötürü probit tercih edilebilir. Bu, @Elvis'in "ikili sonucunuz gizli bir Gauss değişkenine bağlıdır" ile kastettiği şeydir.simetrik , başarı olasılığının sıfırdan yavaşça arttığına inanıyorsanız, ancak bir taneye yaklaştıkça daha çabuk azalır, takunya çağırılır, vb.

Son olarak, modelin verilere yapılan ampirik uyumunun, söz konusu link fonksiyonlarının şekilleri (farklı olarak, logit ve probit) değişmediği sürece, bir link seçiminde yardımcı olma ihtimalinin düşük olduğuna dikkat edin. Örneğin, aşağıdaki simülasyonu göz önünde bulundurun:

set.seed(1)
probLower = vector(length=1000)

for(i in 1:1000){      
    x = rnorm(1000)
    y = rbinom(n=1000, size=1, prob=pnorm(x))

    logitModel  = glm(y~x, family=binomial(link="logit"))
    probitModel = glm(y~x, family=binomial(link="probit"))

    probLower[i] = deviance(probitModel)<deviance(logitModel)
}

sum(probLower)/1000
[1] 0.695

Verilerin bir probit model tarafından üretildiğini bildiğimiz halde ve 1000 veri noktasına sahip olduğumuzda bile, probit modeli sadece zamanın% 70'ine ve daha sonra bile çoğu zaman önemsiz bir miktarda daha iyi bir sonuç verir. Son yinelemeyi düşünün:

deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806

Bunun nedeni basitçe logit ve probit link fonksiyonlarının aynı girdiler verildiğinde çok benzer çıktılar vermesidir.

Resim tanımını buraya girin

Logit ve probit fonksiyonları pratik olarak aynıdır, ancak @vinux'un belirttiği gibi logit 'köşeyi döndüğünde' sınırlardan biraz daha uzaktır. ( optimum şekilde hizalanması için, logit değerinin probit için karşılık gelen eğim değerinin katı olması gerektiğini . Ayrıca, tıkanıklığı üst üste koyabilmeleri için biraz kaydırdım. birbirlerinden daha fazla, ancak figürü daha okunaklı tutmak için onu bir kenara bıraktım. 0'dan daha erken, ancak daha yavaş bir şekilde çekmeye başlar ve 1'e yaklaşır ve sonra keskin bir şekilde döner. $\beta_1$ $\approx 1.7$

Link fonksiyonları hakkında birkaç şey söylenebilir. İlk olarak, kimlik işlevini ( ) bir bağlantı işlevi olarak kabul etmek, standart doğrusal modeli genelleştirilmiş doğrusal modelin özel bir durumu olarak anlamamızı sağlar (yani, yanıt dağılımı normaldir ve bağlantı kimlik işlevidir). Ayrıca, bağlantının başlattığı dönüşümün gerçek yanıt verilerini değil, yanıt dağılımını yöneten parametreye ( ) uygun şekilde uygulandığını bilmek de önemlidir. $g(\eta)=\eta$ $\mu$ . Son olarak, pratikte, dönüştürmek için altta yatan parametreye asla sahip olmadığımızdan, bu modellerin tartışılmasında, çoğu zaman gerçek bağlantı olarak kabul edilenler örtük bırakılır ve model, bunun yerine yapısal bileşene uygulanan bağlantı işlevinin tersi ile temsil edilir. . Yani: Örneğin, lojistik regresyon genellikle gösterilir: yerine:

μ = g^{- 1} (β_{0} + β_{1} X)

$\mu=g^{-1}(\beta_0+\beta_1X)$

π (Y) = \frac{\exp (β_{0} + β_{1} X)}{1 + \exp (β_{0} + β_{1} X)}

$\pi(Y)=\frac{\exp(\beta_0+\beta_1X)}{1+\exp(\beta_0+\beta_1X)}$

\ln (\frac{π (Y)}{1 - π (Y)}) = β_{0} + β_{1} X

$\ln\left(\frac{\pi(Y)}{1-\pi(Y)}\right)=\beta_0+\beta_1X$

Genelleştirilmiş doğrusal modelin hızlı ve net, ancak sağlam bir genel görünümü için, bu cevabın bazı kısımları için eğilmek zorunda olduğum halde , Fitzmaurice, Laird, & Ware (2004) , bölüm 10'a bakınız . - ve diğer - maddi, herhangi bir hata benim olur). Bu modellerin R'ye nasıl takılacağı hakkında , temel paketteki ? Glm fonksiyonunun belgelerine bakın .

(Son bir not daha sonra eklendi :) Bazen insanların probit kullanmamanız gerektiğini söylediklerini duyuyorum çünkü yorumlanamıyor. Bu doğru değildir, ancak betaların yorumlanması daha az sezgiseldir. Lojistik regresyon ile, bir tek birim değiştirmek bir ilişkili 'başarı' (alternatif olarak, bir log oran değişikliği her şey eşit olduğunda, oran olarak kat fark). Bir probit ile, bu 'nin bir değişikliği olur . ( Örneğin, 1 ve 2 puanlarına sahip bir veri kümesinde iki gözlem düşünün .) Bunları öngörülen olasılıklara dönüştürmek için normal CDF'den geçirebilirsiniz. $X_1$ $\beta_1$ $\exp(\beta_1)$ $\beta_1\text{ }z$ $z$ , ya da bir masaya onları aramak . $z$

(Hem @vinux hem de @Elvis için +1. Burada, bunlar hakkında düşünmek ve sonra logit ile probit arasındaki seçimi ele almak için bunu kullanmak için daha geniş bir çerçeve sağlamaya çalıştım.)

— gung
kaynak

79

Teşekkürler beyler. Bunun iyi bir şekilde bir araya gelmesine sevindim; bu aslında soruları cevaplayarak ve başkalarının cevaplarını sorup okurken, CV'de bir şeyler nasıl öğrenebileceğinize güzel bir örnektir : Bu bilgiyi önceden biliyordum, ancak çok soğuk yazabildiğim kadar iyi değildi. Bu yüzden malzemeyi nasıl düzenleyeceğimi ve net bir şekilde ortaya koyacağımı bulmak için eski metinlerimin üzerinden geçerken biraz zaman harcadım ve bu süreçte bu fikirleri kendim için sağlamlaştırdım.

— gung

6

@gung Bu açıklama için teşekkürler, genel olarak karşılaştığım GLM'lerin en açık tanımlarından biri.

— Eylül'de

@whuber "Yanıt değişkeni normal olarak dağılmadığında (örneğin, yanıt değişkeniniz ikili ise) bu yaklaşım [standart OLS] artık geçerli olmayabilir." Sizi bununla (tekrar!) Rahatsız ettiğim için üzgünüm, ama bu biraz kafa karıştırıcı buluyorum. OLS’deki bağımlı değişkene ilişkin koşulsuz dağıtım varsayımlarının olmadığını anlıyorum . Bu alıntı, cevabın o kadar çılgınca normal olmadığı (yani bir ikili değişken) olduğu için verilen koşullu dağılımının (ve dolayısıyla artıkların dağılımı) normalliğe yaklaşamayacağı anlamına mı geliyor?

X

$X$

— landroni

7

@landroni, bunun için yeni bir soru sormak isteyebilirsiniz. Kısacası, cevabınız ikili ise, X = xi verilen Y'nin koşullu dağılımı normalliğe yaklaşamaz; her zaman binom olacak. Ham artıkların dağılımı aynı zamanda normalliklere asla yaklaşmayacak. Her zaman pi & (1-pi) olacaklar. Buna rağmen X = xi (yani, pi) verilen Y koşullu ortalamasının örnekleme dağılımı normalliğe yaklaşacaktır.

— gung

2

Landrone'nin endişesini biraz paylaşıyorum: sonuçta, normal olarak dağıtılmış artıklar normal dağılmış bir sonuç ve normal olmayan dağıtılmış bir sonuç normal dağılmış artıklar olabilir. Sonuç ile sorunu olan dağılımı hakkında daha az gibi görünüyor se başına onun aralıktan daha.

— Alexis,

47

Vinux'un cevabına ek olarak, zaten en önemli olanı da söyler:

logit regresyonundaki katsayıları , oran oranı bakımından doğal yorumlara sahiptir; $\beta$
İkili sonucunuzun gizli bir Gauss değişkeni olan [eq. 1] ile deterministik bir şekilde: tam olarak olduğunda . $Z = X' \beta + \epsilon\$ $\epsilon \sim \mathcal N(0,1)$ $Y = 1$ $Z > 0$
Eğer sonuç düşünüyorsanız Daha genel olarak, ve daha çok doğal, probistic regresyon daha doğal bir modeldir tam olarak ne zaman bir bir eşik değerin ile, . Bu söz konusu durum, indirgenebilir görmek kolaydır: yeniden ölçeklendirmek olarak ; bu denklemi kontrol etmek kolaydır [eq. 1] hala tutar (katsayıları yeniden ölçeklendir ve kesmeyi çevir). Bu modeller, örneğin, gözlemlenmeyen bir sürekli değişken olduğu tıbbi bağlamlarda ve , olduğunda ortaya çıkan bir hastalık olarak $1$ $Z_0 = X' \beta_0 + \epsilon_0$ $c$ $\epsilon \sim \mathcal N(0,\sigma^2)$ $Z_0$ $Z = {1\over \sigma}(Z_0-c)$ $Z_0$ $Y$ $Z_0$ bazı "patolojik eşiği" aşıyor.

Hem logit hem de probit modeller sadece modeldir . Box'un söylediği gibi "Tüm modeller yanlış, bazıları yararlıdır"! Her iki model de , sonuç üzerindeki etkisinin varlığını tespit etmenizi sağlar ; Bazı çok özel durumlar dışında, hiçbiri “gerçekten doğru” olmayacak ve yorumlamaları dikkatli yapılmalıdır. $X$ $Y$

— Elvis
kaynak

17

Ayrıca, probit ve logit modellerinin kullanımının disiplin geleneğinden büyük ölçüde etkilendiğine dikkat etmek önemlidir. Örneğin, ekonomist psikometri araştırmacıları çoğunlukla logit modellerine güvenirken, analizleri probit etmek için çok daha fazla kullanıldıkları görülmektedir.

— David

Bozuk para atmanın arkasındaki model nedir?

— skan

32

İfadenizle ilgili olarak

Lojistik regresyonun ne zaman ve ne zaman probit kullanılacağını bilmekle daha çok ilgileniyorum.

İkisi arasında seçim yaparken göz önünde bulundurulması gereken hususları ortaya koyan çok sayıda cevap var, ancak henüz belirtilmemiş önemli bir husus var: İlginiz, ikili efektlerdeki kümelenmiş derneklere karışık etkiler lojistiği kullanarak bakmak veya probit modelleri, probit modelini tercih etmek için teorik bir temel vardır. Bu, elbette, lojistik modeli tercih etmek için önceden bir sebep olmadığını varsaymaktadır (örneğin, bir simülasyon yapıyorsanız ve bunun gerçek model olduğunu biliyorsanız).

İlk olarak , bunun neden doğru olduğunu görmek için ilk önce bu modellerin her ikisinin de eşikli sürekli regresyon modelleri olarak görülebildiğini not edin. Bir örnek olarak, gözlem için basit doğrusal karışık etkiler modeli dikkate küme içindeki : $i$ $j$

y_{i j}^{⋆} = μ + η_{j} + ε_{i j}

$y^{\star}_{ij} = \mu + \eta_{j} + \varepsilon_{ij}$

burada küme rasgele etkidir ve hata terimdir. Daha sonra hem lojistik hem de probit regresyon modelleri, bu modelden üretilip eşik değeri 0: $\eta_j \sim N(0,\sigma^2)$ $j$ $\varepsilon_{ij}$

y_{i j} = {\begin{cases} 1 & if y_{i j}^{⋆} \geq 0 \\ 0 & if y_{i j}^{⋆} < 0 \end{cases}

$y_{ij} = \begin{cases} 1 & \text{if} \ \ \ y^{\star}_{ij}≥0\\ \\ 0 &\text{if} \ \ \ y^{\star}_{ij}<0 \end{cases}$

Eğer terim normalde dağıtılır, bir probit regresyon var ve lojistik olarak dağıtılır eğer bir lojistik regresyon modeli var. Ölçek tanımlanmadığından, bu artık hatalar sırasıyla standart normal ve standart lojistik olarak belirlenmiştir. $\varepsilon_{ij}$

Pearson (1900) , çok değişkenli normal verilerin kategorik olarak üretilip eşik hale getirilmesi durumunda, altta yatan değişkenler arasındaki korelasyonların hala istatistiksel olarak tanımlandığını göstermiştir - bu korelasyonlar, polikrik korelasyonlar olarak adlandırılır ve ikili duruma özgü olarak, tetrakorik korelasyonlar olarak adlandırılır . Bu, bir probit modelinde, temelde normal dağılmış değişkenlerin sınıf içi korelasyon katsayısının:

I C C = \frac{{\hat{σ}}^{2}}{{\hat{σ}}^{2} + 1}

${\rm ICC} = \frac{ \hat{\sigma}^{2} }{\hat{\sigma}^{2} + 1 }$

bu , probit durumunda, temeldeki gizli değişkenlerin eklem dağılımını tamamen karakterize edebileceğiniz anlamına gelir .

Lojistik modelde, lojistik modeldeki rastgele etki varyansı hala tanımlanmaktadır, ancak bağımlılık yapısını (ve dolayısıyla ortak dağılımı) tam olarak tanımlamamaktadır, çünkü normal ve lojistik rastgele bir değişken arasında olmayan bir karışımdır . özelliği, ortalama ve kovaryans matrisi ile tam olarak belirtilmesidir. Alttaki gizli değişkenler için bu garip parametrik varsayımı not etmek, genel olarak yorumlamak için lojistik modeldeki rastgele etkilerin yorumlanmasını daha az belirgin hale getirir.

— Makro
kaynak

6

Birinin de probit tercih edeceği başka durumlar da var. Ekonometrik seçim modelleri (yani Heckman) yalnızca probit model kullanılarak kanıtlanmıştır. Bundan daha az eminim, ancak ikili değişkenlerin endojen olduğu bazı SEM modellerinin de, maksimum olasılık tahmini için gerekli olan çok değişkenli normalliğin varsayımı nedeniyle probit modelini kullandığına inanıyorum.

— Andy,

1

@AndyW, ikili SEM'ler konusunda haklısınız - ve burada belirttiğim nokta ile yakından ilgili - buradaki tahmin (ve ardından yorumlama), temel korelasyonların tanımlanması ve ortak dağılımın tam olarak karakterize edilmesi gerçeğiyle desteklenir. .

— Makro

29

Önceki (mükemmel) cevaplarda değinilmeyen önemli bir nokta, gerçek tahmin aşamasıdır. Multinomial logit modellerinde, birleştirilmesi kolay olan ve seçim olasılığının kapalı formda bir ifadesine yol açan bir PDF bulunur. Normal dağılımın yoğunluk işlevi o kadar kolay entegre değildir, bu nedenle probit modeller tipik olarak simülasyon gerektirir. Dolayısıyla her iki model de gerçek dünyadaki durumların soyutlamaları olsa da, logit genellikle daha büyük problemlerde (çoklu alternatifler veya büyük veri setleri) kullanmaktan daha hızlıdır.

Bunu daha net görmek için, belirli bir sonucun seçilme olasılığı, yordayıcı değişkenlerinin ve hata terimlerinin bir fonksiyonudur ( Train'den sonra ) $x$ $\varepsilon$

P = \int I [ε > - β^{'} x] f (ε) d ε

$P = \int I[\varepsilon > -\beta'x] f(\varepsilon)d\varepsilon$ Burada , bir gösterge işlevi, aksi seçilen, 1 ile sıfırdır. Bu integralin değerlendirilmesi büyük ölçüde varsayımına bağlıdır . Logit modelinde, bu bir lojistik fonksiyondur ve probit modelinde normal bir dağılımdır. Logit modeli için bu olur

I

$I$

f (x)

$f(x)$

P = \int_{ε = - β^{'} x}^{\infty} f (ε) d ε = 1 - F (- β^{'} x) = 1 - \frac{1}{\exp (β^{'} x)}

$P=\int_{\varepsilon=-\beta'x}^{\infty} f(\varepsilon)d\varepsilon\\ = 1- F(-\beta'x) = 1-\dfrac{1}{\exp(\beta'x)}$

Probit modeller için böyle uygun bir form yoktur.

— gregmacfarlane
kaynak

4

Bu, gerçek fenomen bir probit tarafından daha iyi modellenmesine rağmen, mekansal ayrık seçim problemlerini tahmin etmek için klasik olarak kullanılan logit fonksiyonlarının klasik olarak kullanılmasının nedenidir.

— Eylül'de

Mekansal unsurları DC modeline nasıl dahil edersiniz? Çok ilgileniyorum

— gregmacfarlane

2

Ancak, seçim durumunda, probit daha esnektir, bu yüzden bugün moore kullanılır! multinomyal logit, her zaman ampirik olarak gerekçeli olmayan alakasız alternatiflerin alakasız olduğu varsayımını ima eder.

— kjetil b halvorsen

1

IIA'nın her zaman haklı olmadığını doğru söylüyorsunuz ve modern tahmincilerle probit modellerin oldukça hızlı bir şekilde tahmin edilebileceği konusunda haklısınız. Ancak GEV modelleri IIA problemini çözer ve bazı durumlarda seçim yapısını daha iyi gösterebilir. Ayrıca probitin "bugün daha fazla kullanıldığından" emin değilim; Alanımda (ulaştırma modellemesi), probit modelleri yenilik olmaya devam ediyor.

— gregmacfarlane

13

Söyleyeceğim şey, bugüne kadar söylenenleri hiçbir şekilde geçersiz kılmaz. Sadece probit modellerin IIA (Alakasız alternatiflerin bağımsızlığı) varsayımlarından muzdarip olmadığına ve logit modelinin sahip olduğuna işaret etmek istiyorum.

Trenin mükemmel kitabından bir örnek kullanmak için. Arabamda mavi otobüse mi bineceğimi veya arabamı sürüp sürmeyeceğimi öngören bir logit varsa, kırmızı otobüs eklemek hem orantılı olarak hem de hem de mavi otobüsden çekilir. Ancak probit bir model kullanarak bu sorunu önleyebilirsiniz. Temel olarak, her iki orantılı olarak çizim yapmak yerine, daha yakın alternatifler olarak mavi veriyolundan daha fazla çizim yapabilirsiniz.

Yaptığın fedakarlık, yukarıda belirtildiği gibi kapalı formda bir çözüm bulunmamasıdır. IIA meseleleri konusunda endişeli olduğumda Probit benim başım dönüyor. Bu, IIA'yı bir logit çerçevede (GEV dağıtımları) aşmanın yollarının olmadığını söylemez. Ama ben her zaman bu tür modellere, problemin etrafını gizlice sokmuş olarak baktım. Alabileceğiniz hesaplama hızları ile, probit ile gidelim derdim.

— user61417
kaynak

1

Lütfen "Alakasız alternatiflerin bağımsızlığı" nı açıklar mısınız?

— skan

3

IIA varsayımının bir varyantını zorlayan çok uluslu bir probit modeli tahmin etmenin hala mümkün olduğunu unutmayın (Stata'daki mprobit komutunda olduğu gibi). Çok terimli probitlerde IIA ile uzaklaşmak için, cevap değişkenindeki her alternatif için gizli değişken hatalarının varyans-kovaryans matrisini modellemelisiniz.

— Kenji

8

Logit ve probit arasındaki en bilinen farklardan biri (teorik) regresyon artıkları dağılımıdır: probit için normal, logit için lojistik (lütfen bakınız: Koop G. Ekonometriye Giriş Chichester, Wiley: 2008: 280).

— Carlo Lazzaro
kaynak

2

Fakat verilerimizin teorik olarak normal mi yoksa lojistik artık dağılımının mı olması gerektiğini nasıl bilebiliriz?

— skan

8

Soruya, sadece “lojistik regresyonun ne zaman ve probitlerin ne zaman kullanılacağına”, istatistiksel ayrıntılara girmeden, ancak istatistiklere dayanan kararlara odaklanmaya odaklanan pratik bir cevap veriyorum. Bu sorunun cevabı iki ana konuya dayanıyor: disiplinli bir tercihiniz var mı ve sadece hangi modelin verilerinize daha uygun olduğuna dikkat ediyor musunuz?

Temel fark

Hem logit hem de probit modeller, bağımlı bir yanıt değişkeninin 0 veya 1 olması olasılığını veren istatistiksel modeller sunar. Çok benzerdirler ve genellikle pratik olarak özdevinimli sonuçlar verirler, ancak olasılıkları hesaplamak için farklı işlevler kullandıkları için sonuçları bazen biraz farklı.

Disiplin tercihi

Bazı akademik disiplinler genellikle birini veya diğerini tercih eder. Sonuçlarınızı belirli bir geleneksel tercihi olan bir akademik disipline yayınlayacak ya da sunacaksanız, bulgularınızın daha kolay kabul edilebilmesi için tercihinizi belirtin. Örneğin ( Yöntem Danışmanlarından ),

Logit - lojistik regresyon olarak da bilinir - epidemiyoloji gibi sağlık bilimlerinde kısmen popülerdir, çünkü katsayılar olasılık oranları olarak yorumlanabilir. Probit modeller, daha gelişmiş ekonometrik ortamlarda (heteroskedastik probit modeller olarak bilinir) sabit olmayan hata değişikliklerini hesaba katarak genelleştirilebilir ve bu nedenle bazı bağlamlarda ekonomistler ve siyaset bilimciler tarafından kullanılır.

Mesele şu ki, sonuçlardaki farklılıklar o kadar küçüktür ki, genel izleyicinizin sonuçlarınızı anlama kabiliyeti iki yaklaşım arasındaki ufak farklardan daha ağır basar.

Tek umursadığın daha uygunsa ...

Araştırma birini veya bu soruya başka, sonra benim çalışma tercih etmeyen bir disiplin ise (daha iyidir, logit veya probit) kullanımı genellikle iyidir sonucuna götürdü etti probit beri neredeyse her zaman olacak, logit modelininkine eşit veya daha yüksek olan verilere istatistiksel bir uygunluk verin. Logit modelleri daha iyi bir uyum sağladığında en dikkat çeken istisna, "aşırı bağımsız değişkenler" durumudur (aşağıda açıklarım).

Sonucum neredeyse tamamen (sayısız kaynak araştırdıktan sonra) Hahn, ED & Soyer, R., 2005'e dayanıyor. Probit ve logit modelleri: Çok değişkenli alandaki farklılıklar. : Boş http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf . İşte logit ve probit çok değişkenli modellerin verilere daha iyi bir uyum sağlayıp sağlamadığına ilişkin bu makaledeki pratik karar sonuçlarının özeti (bu sonuç aynı zamanda tek değişkenli modeller için de geçerlidir, ancak bunlar sadece iki bağımsız değişken için simüle edilmiş etkiler):

Çoğu senaryoda, logit ve probit modelleri aşağıdaki iki istisna dışında verilere eşit derecede uygundur.
"Aşırı bağımsız değişkenler" durumunda logit kesinlikle daha iyidir . Bunlar, özellikle büyük veya küçük bir değerin büyük oranda çoğunlukla bağımlı değişkenin 0 veya 1 olup olmadığını belirlediği, diğer değişkenlerin çoğunun etkilerini geçersiz kıldığı bağımsız değişkenlerdir. Hahn ve Soyer resmi olarak tanımladılar (s. 4):

Aşırı bir bağımsız değişken seviyesi, üç olayın sonucunu içerir. Birincisi, bir aşırı bağımsız değişken seviyesi, bir bağımsız değişkenin üst veya alt ucunda meydana gelir. Örneğin, bağımsız değişkenin x'in 1, 2 ve 3.2 değerlerini alacağını söyleyin. Aşırı bağımsız değişken seviyesi, x = 3.2 (veya x = 1) 'deki değerleri içerir. İkincisi, toplam n'nin önemli bir kısmı (örneğin,% 60) bu seviyede olmalıdır. Üçüncüsü, bu seviyedeki başarı ihtimalinin kendisi aşırı olmalıdır (örneğin,% 99'dan büyük).

Probit, orta veya büyük örneklem büyüklüğüne sahip “rastgele etki modelleri” durumunda daha iyidir (küçük örneklem büyüklüğü için logit değerine eşittir). Sabit efektli modeller için probit ve logit eşit derecede iyidir. Hahn ve Soyer'ın makalelerinde "rastgele etki modelleri" ile ne anlama geldiklerini gerçekten anlamıyorum. Her ne kadar birçok tanım önerilmiş olsa da ( bu Stack Exchange sorusunda olduğu gibi ), terimin tanımı aslında belirsiz ve tutarsızdır . Ancak, logit bu konuda hiçbir zaman probit için üstün olmadığından, mesele sadece probit seçilerek tartışılır.

Hahn ve Soyer'in analizine dayanarak, benim sonucum, bağımsız değişkenler haricinde her zaman probit modelleri kullanmak, bu durumda logit seçilmelidir . Aşırı bağımsız değişkenler o kadar yaygın değildir ve tanınması oldukça kolay olmalıdır. Bu kural ile, modelin rastgele etki modeli olup olmadığı önemli değildir. Bir modelin rastgele etkiler modeli olduğu durumlarda (probit tercih edilir) ancak aşırı bağımsız değişkenler vardır (logit tercih edilir); aşırı bağımsız değişkenler daha baskındır ve bu nedenle logit tercih edilir.

— Tripartio
kaynak

5

Aşağıda, probit ve logit'i özel durumlar olarak barındıran ve hangisinin daha uygun olduğunu test edebileceği bir tahminciyi açıklıyorum.

Hem probit hem de logit, gizli bir değişken modelinde yuvalanabilir,

y_{i}^{*} = x_{i} β + ε_{i}, ε_{i} \sim G (\cdot),

$y_i^* = x_i \beta + \varepsilon_i,\quad \varepsilon_i \sim G(\cdot),$

gözlemlenen bileşen nerede

y_{i} = 1 (y_{i}^{*} > 0) .

$y_i = \mathbb{1}(y_i^* > 0).$

$G$

ℓ (β) = y_{i} \log G (x_{i} β) + (1 - y_{i}) \log [1 - G (x_{i} β)] .

$\ell(\beta) = y_i \log G(x_i\beta) + (1-y_i) \log[1-G(x_i\beta)].$

$G$

Klein & Spady'de ölçüt işlevi yerine

ℓ (β) = y_{i} \log \hat{G} (x_{i} β) + (1 - y_{i}) \log [1 - \hat{G} (x_{i} β)],

$\ell(\beta) = y_i \log \hat{G}(x_i\beta) + (1-y_i) \log[1-\hat{G}(x_i\beta)],$

$\hat{G}(\cdot)$

\hat{G} (z) = \sum_{i = 1}^{N} y_{i} \frac{K (\frac{z - x_{i} β}{h})}{\sum_{j = 1}^{N} K (\frac{z - x_{j} β}{h})},

$\hat{G}(z) = \sum_{i=1}^N y_i \frac{ K\left( \frac{z - x_i\beta}{h} \right)}{\sum_{j=1}^N K\left( \frac{z - x_j\beta}{h} \right)},$

$K$ $h$ $\beta$ $h$ $h$

$\hat{G}$ $i$ $h$

$G$ $\beta$ $G$

— Superpronker
kaynak

5

Çok benzerler.

$Y=1$ $X$ $S$ $X$

P (Y = 1 | X) = P (S < β X)

$P(Y=1|X)=P(S<\beta X)$

Veya eşdeğer olarak :

P (Y = 1 | X) = P (β X - S > 0)

$P(Y=1|X)=P(\beta X-S>0)$

$S$

$S$
$S$

$\beta$

$E=\beta X-S$ $X$ $-S$

$E>0$ $Y=1$
$E<0$ $Y=0$

Lojistik ve probit arasındaki farklar, lojistik ve normal dağılımlar arasındaki farktan kaynaklanmaktadır. O kadar yok. Ayarlandığında, şöyle görünürler:

Lojistik daha ağır bir kuyruğa sahiptir. Bu, küçük (<% 1) veya yüksek (>% 99) olasılık olaylarının nasıl yapıldığını biraz etkileyebilir. Pratik olarak, çoğu durumda fark bile fark edilmez: logit ve probit esasen aynı şeyi tahmin eder. Bkz http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article

"Felsefi" olarak, lojistik regresyon, maksimum entropi ilkesine eşdeğer olarak haklı gösterilebilir: http://www.win-vector.com/blog/2011/09/the-equivalence- of-logistic-regression-and-maximum -entropy-modelleri /

Hesaplama açısından: lojistik kolaydır çünkü lojistik dağılımın kümülatif dağılımının normal dağılımın aksine kapalı bir formülü vardır. Ancak normal dağılımlar, çok boyutluya gittiğinizde iyi özelliklere sahiptir, bu nedenle gelişmiş durumlarda sıklıkla probit tercih edilir.

— Benoit Sanchez
kaynak