Logit işlevi, ikili verilerin regresyon modellemesi için her zaman en iyisidir?


15

Bu sorunu düşünüyorum. İkili verileri modellemek için olağan lojistik fonksiyon: Ancak S-şekilli bir eğri olan logit işlevi, verileri modellemek için her zaman en iyisidir? Belki de verilerinizin normal S-şekilli eğriyi değil, etki alanı(0,1)olan farklı bir eğri türünü takip ettiğine inanmak için nedeniniz vardır.

log(p1p)=β0+β1X1+β2X2+
(0,1)

Bu konuda herhangi bir araştırma var mı? Belki bir probit fonksiyonu ya da benzer bir şey olarak modelleyebilirsiniz, ama ya tamamen başka bir şeyse? Bu, etkilerin daha iyi tahmin edilmesine yol açabilir mi? Sadece bir düşüncem vardı ve bununla ilgili herhangi bir araştırma olup olmadığını merak ediyorum.



2
@ macro Bunun tam bir kopya olduğunu düşünmüyorum. Bu soru sadece logit ve probit ile ilgilidir; bu da başka alternatifler ister.
Peter Flom - Monica'yı eski durumuna döndürün

Bunu açık bırakmak için oy kullanıyorum. Gördüğüm temel fark, bu Q'nun farklı olası bağlantı fonksiyonları konusundaki istatistiklerde araştırma istemesi . İnce bir fark, ama yeterli olabilir. @Glen, daha önce görmediyseniz diğer Q'yu incelemek isteyebilirsiniz. Cevabımda farklı olası bağlantılar hakkında konuşuyorum. Bu Q'nun gerçekten farklı olmadığını düşünüyorsanız, işaretleyin ve modlar onu kapatabilir; sorduğunuz şeyi ve bu Q'nun daha net bir ayrımını yapmanın bir yolunu düşünüyorsanız, bunu yapmak için düzenleme yapmak isteyebilirsiniz.
gung - Monica'yı eski durumuna getirin

Logit ve probit sorununun tam bir kopyası olmadığını biliyorum, ancak bağlantılı soru tarafından sorulanın ötesine geçen gung cevabının burada sorulanların çoğuna hitap ettiğini düşündüm, bu yüzden bir kopya olarak kapattım. Muhtemelen yakından ilişkili başka konular da var ama ilk akla gelen konu bu.
Makro

Yorumlar için teşekkürler. Sorumun önceki sorudan farklı olduğuna inanıyorum. Probit ve log-log dönüşümlerine çok aşinayım ve önceki sorudaki tartışma benim için çok bilgilendiriciydi. Ancak, olasılık eğrisinin farklı bir dağılım izlediğini bildiğiniz veya bilmediğiniz bir durumda mümkün olan diğer bağlantı işlevleriyle (muhtemelen parametrik olmayan?) İlgileniyorum. Bence ortak değişkenler arasında etkileşimler söz konusu olduğunda bu önemli bir rol oynayabilir. David J. Harris yanıtı da yardımcı oluyor ...
Glen

Yanıtlar:


15

İnsanlar, verilerini 0 ile 1 arasında tutmak için her türlü işlevi kullanırlar. Modeli elde ettiğinizde günlük oranları matematikten doğal olarak düşer (buna "kanonik bağlantı işlevi" denir), ancak denemek için tamamen özgürsünüz. diğer alternatifler.

Makro, sorunuzla ilgili yorumunda belirtildiği gibi, ortak bir seçenek, lojistik işlev yerine Gauss'un kantil işlevini kullanan bir probit modelidir . Daha önce hiç denememiş olsam da, bir Student dağılımının kantil işlevini kullanma hakkında iyi şeyler duydum .t

ttt7

Bu yardımcı olur umarım.

Eklemek için düzenlendi : @Macro ile bağlantılı tartışma gerçekten mükemmel. Daha fazla ayrıntıyla ilgileniyorsanız çok okumanızı tavsiye ederim.


Soru özellikle "ikili veriler" ile ilgilidir - 0 ile 1 arasındaki verilerle ilgili değildir. Probit modelinin ikili veriler durumunda teorik bir gerekçesi yoktur.
Neil G

3
@NeilG, probit modelini kullanmanın bir nedeni, çok değişkenli ikili verileri (örneğin karışık bir modelle) eşikli normaller olarak modellemenin uygun bir yolunu vermesidir. Bu durumda, temeldeki değişkenlerin korelasyon matrisi istatistiksel olarak tanımlanamazken, lojistik durumda değildir. Burada biraz daha uzun tartışma var .
Makro

@Macro: Oh, anlıyorum. Bu çok ilginç, teşekkürler.
Neil G

@David J.Harris: Beşinci parçalara (veya belki de kantil aynı anlama sahiptir), yani beşinci parçalara olan dağılımı parçalamak mı istiyorsunuz:% 20,% 40, ..,% 100?
MSIS

1
@MSIS bir beşte içine böler, keyfi birimler halinde 100ths içine yüzdelik böler ve dörtte birlik kısım böler görün quintil en.wikipedia.org/wiki/Quantile#Specialized_quantiles
David J. Harris

11

Hiçbir neden görmüyorum, a-priori, belirli bir veri kümesi için uygun bağlantı işlevinin neden logit olması gerektiğine inanmıyorum (evren genel olarak bize oldukça nazik görünmesine rağmen). Bunların aradığınız şey olup olmadığını bilmiyorum, ancak daha egzotik bağlantı işlevlerini tartışan bazı makaleler:

Açıklama: Bu materyali iyi bilmiyorum. Birkaç yıl önce Cauchit ve Scobit ile uğraşmayı denedim, ancak kodum çökmeye devam etti (muhtemelen büyük bir programcı olmadığım için) ve üzerinde çalıştığım projeyle alakalı görünmüyordu, bu yüzden bıraktım .

X


4

En iyi strateji, olup bitenler ışığında verileri modellemektir (Sürpriz değil!)

  • Probit modelleri LD50 çalışmalarından kaynaklanmaktadır - böceklerin yarısını öldüren böcek ilacı dozunu istiyorsunuz. İkili tepki, böceğin (belirli bir dozda) yaşayıp ölmediğidir. Bir dozda duyarlı olan hatalar, daha düşük dozlarda da duyarlı olacaktır, bu da kümülatif Normal'e modelleme fikrinin devreye girdiği yerdir.
  • İkili gözlemler kümeler halinde gelirse, bir beta-binom modeli kullanabilirsiniz. Ben Bolker, basit durumlarda bunu uygulayan bbmle paketinin (R'de) belgelerine iyi bir giriş yapıyor. Bu modeller, verilerin varyasyonu üzerinde binom dağılımında elde ettiğinizden daha fazla kontrole izin verir.
  • Çok değişkenli ikili veriler - çok boyutlu olasılık tablolarına dönüşen sıralama - bir log-lineer model kullanılarak analiz edilebilir. Link fonksiyonu log oranları yerine logdur. Bazı insanlar buna Poisson regresyonu der.

Bu modellerden herhangi biri ve aralarındaki karşılaştırmalar ve bunları tahmin etmenin farklı yolları hakkında bol miktarda araştırma olmasına rağmen, muhtemelen bu modeller üzerinde araştırma yoktur. Literatürde bulduğunuz şey, araştırmacılar belirli bir sorun sınıfı için bir dizi seçeneği düşündüğü ve bir yöntemin üstün olduğu için bir süre çok fazla faaliyet olduğu.


Beta-binom için +1. Birinin araç kutusunda olması harika bir araç.
David J. Harris

3

Logit, girdilerin her biri Bernoulli dağıtımı olan uzmanların bir ürünü olacağı bir modeldir . Başka bir deyişle, tüm girdilerin bağımsız Bernoulli dağılımları olduğunu düşünüyorsanızpben kanıtları birleştirildiğinde, her birine uygulanan lojistik işlevi eklediğinizi göreceksiniz. pbens. (Aynı şeyi söylemenin başka bir yolu da, beklenti parametreleştirmesinden Bernoulli dağılımının doğal parametreleştirilmesine dönüşümün lojistik işlev olmasıdır.)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.