Bağımsız değişken olarak sıra kategorik değişken nasıl ele alınır


19

Logit model kullanıyorum. Bağımlı değişkenim ikili. Ancak kategorik ve yanıtları içeren bir bağımsız değişken vardır: 1.very good, 2.good, 3.average, 4.poor and 5.very poor. Bu yüzden sıralı ("nicel kategorik"). Bunu modelde nasıl kullanacağımdan emin değilim. Kullanıyorum gretl.

[@Ttnphns'tan not: Her ne kadar soru modelin logit olduğunu söylese de (bağımlı olanın kategorik olduğu için), önemli sorun - sıralı bağımsız değişkenler - temel olarak birbirine bağımlı, kategorik veya niceldir. Bu nedenle, soru lojistik regresyon veya diğer logit modelinde olduğu gibi doğrusal regresyon ile de aynı derecede önemlidir.]


Bağımlı değişkenim 0 ve 1 değeri alıyor, 6 bağımsız değişkenim var, 3 tanesi kategorik, bu değişken "bölgenizdeki yerel sağlık hizmetlerini nasıl değerlendiriyorsunuz? Bölgenizdeki yerel ulaşımı nasıl değerlendiriyorsunuz ve nasıl derecelendiriyorsunuz? Bölgenizdeki polis hizmetleri? tepkiler çok iyi, iyi, ortalama, fakir ve çok kötü.
rahmat

@Zaman Bağımlı değişken ikiliyse, sıralı regresyona gerek yoktur. Sonuç gösterge (kukla) değişkenlerini kullanarak bir sıra tahmincisi işlemektir.
Nick Cox

teşekkürler tim, ne dediğim yanlış değilse ben tüm kategoriler için kukla oluşturmak gerekir? örneğin ben bir değişken değişken için beş yanıt (çok iyi, iyi, ortalama, kötü ve çok kötü) var, bu yüzden 5 aptallar oluşturmak gerekir.
rahmat

Yanıtlar:


14

Sıralı bağımsız değişken ile ilgili sorun , tanım gereği, seviyeleri arasındaki gerçek metrik aralıkların bilinmediği için , "monotonik" şemsiyesi dışında uygun bir tip ilişkisinin apriori olarak kabul edilememesidir. Bu konuda bir şeyler yapmalıyız, örneğin - "ekranları değiştirmek veya varyantları birleştirmek" veya "bir şeyi en üst düzeye çıkaranı tercih etmek".

Likert derecelendirme IV'nizi ordinal (aralıklı veya nominal değil) olarak tedavi etmekte ısrar ederseniz, sizin için bir çift alternatifim var.

  1. Polinom kontrastlarını kullanın , yani modelde kullanılan her bir belirleyici sadece doğrusal olarak değil, karesel ve kübik olarak da girer. Bu nedenle, sadece doğrusal değil, daha genel olarak, monotonik etki yakalanabilir (doğrusal etki ölçek / aralık olarak tutulan yordayıcıya karşılık gelir ve diğer iki etki de qual olmayan aralıklara sahip olduğunu tadar). Ek olarak, her bir öngörücünün mankenleri de girilebilir, bu da nominal / faktöryel etkiyi test eder. Tüm bunların sonunda, tahmin edicinizin ne kadar faktör olarak davrandığını, ne kadar doğrusal eş değişken ve ne kadar doğrusal olmayan eş değişken olduğunu bilirsiniz. Bu seçenek hemen hemen her regresyonda (doğrusal, lojistik, diğer genelleştirilmiş doğrusal modeller) yapmak kolaydır. Df s tüketir , bu nedenle örnek boyutu yeterince büyük olmalıdır.
  2. Optimal ölçeklendirme regresyonunu kullanın . Bu yaklaşım, monoton olarak sıralı bir öngörücüyü, yüklem üzerinde doğrusal etkiyi en üst düzeye çıkarmak için bir aralığa dönüştürür. CATREG (kategorik regresyon) bu fikrin SPSS'de bir uygulamasıdır. Özel durumunuzun bir sorunu, doğrusal regresyon değil lojistik yapmak istediğinizdir, ancak CATREG logit model tabanlı değildir. Tahminim sadece 2 kategori (ikili) olduğundan, bu engel nispeten küçüktür: İdeal ölçeklendirme için yine de CATREG yapabilir, ardından dönüştürülmüş dönüştürülmüş ölçek öngörücülerle son lojistik regresyon yapabilirsiniz.
  3. Ayrıca bir ölçek veya sıralı DV ve bir sıralı IV basit vakada Jonckheere-Terpstra testinin regresyon yerine makul bir analiz olabileceğini unutmayın.

Başka öneriler de olabilir. Yukarıdaki üç soru aklınıza gelenleri sadece sorunuzu anında okuyor.

Bu konuları da ziyaret etmenizi öneririm: Nominal ve ölçek veya sıra sayıları arasında ilişki kurma ; Ordinal ve ölçek arasındaki ilişki . Özellikle gerileme ile ilgili olmamasına rağmen yardımcı olabilirler.

Ancak bu iplikler regresyonlarla, özellikle lojistikle ilgilidir: içeriye bakmalısınız: bir , iki , üç , dört , beş .


(+1) (1) Yeterli olduğunu düşünüyorsanız yalnızca ilk birkaç polinom kontrastını kullanabilirsiniz. (2) Aynı veri kümesindeki yanıttan yordayıcıları tanımlamak bir sağlık uyarısı ile gelmelidir. (3) Ayrıca bitişik seviyelerin katsayıları arasındaki tutarsızlığı cezalandırabilirsiniz - bkz. Stats.stackexchange.com/q/77796/17230 .
Scortchi - Monica'yı eski durumuna döndürün

1
@Scortchi, Yorum için teşekkürler. (2) ile ilgili olarak - evet, özellikle, son regresyonun yapılacağı verilerin ayrı bir alt kümesinde optimum ölçeklendirme yapmak elbette daha güvenilirdir. (3) - teşekkürler, kendimle de tanışacağım.
ttnphns

1
Başka bir seçenek, aditif bir model kullanmak ve bir spline yoluyla sıralı bağımsız değişkeni temsil etmektir.
kjetil b halvorsen

2
@kjetilbhalvorsen, Evet bu mümkün, teşekkür ederim. Ancak bu seçenek Pt 2'de zaten ima edilmiştir, çünkü sıra değişkenleri için en uygun ölçeklendirme yöntemlerinden biri spline kullanır.
ttnphns

7

Sadece diğer mükemmel cevaplara eklemek için: Bunu ele almanın modern bir yolu, sıralı bağımsız değişkeni bir spline yoluyla temsil eden ek bir model yoluyla olabilir. Değişkenin etkisinin monoton olduğundan eminseniz, monoton bir spline ile kısıtlayabilirsiniz. (Kullanılan monoton kamaların bir örneği için bkz . Sigmoid benzeri eğriye uyacak işlevi arama ).

R'de, sıralı yordayıcıyı "sıralı bir faktör" yaparsanız (örneğin kodla ord <- factor(sample(1:5,20,replace=TRUE),ordered=TRUE) ), doğrusal bir modelde dikey polinomlarla temsil edilir.


4
Sıralı tahmincilerle nasıl çalışacağına dair birkaç ayrıntı eklemek için biraz genişletmek güzel olurdu.
ttnphns

0

k1k


3
Tek taraflı olarak (ve bilgiçlikle veya başka türlü) küçük gösterim kullanımınızı değiştirdim. Önemsiz olmasına rağmen,ndaha çok sayıda gözlemdir ve çoğu zaman yeni başlayanların bu tür konularla karıştırıldığını gördüm.
Nick Cox

1
teşekkürler tim ve nick. Bu yüzden regresyondaki dört aptalın hepsini çalıştırmak zorundayım. sağ? eğer öyleyse her biri 5 yanıt ile 3 kategorik değişken var. bu nedenle modelimin 12 değişkeni olacaktır. sağ?
rahmat

1
Thanks @NickCox - CV dünyasında yeniyim ve saygılı düzeltmeleri takdir ediyorum
Austin T

1
Ne yazık ki, kukla değişkenlere neden ihtiyaç duyulacağını henüz açıklamadınız. Bu cevabın şu anda nasıl olduğu sorusuna cevap olarak geldiğini düşünmüyorum.
ttnphns

2
Destek olarak, bunun göstergelere ihtiyaç olduğunu savunmanın bir durumu olduğunu düşünmüyorum ; sadece monoton olmayan ilişkiler de dahil olmak üzere çeşitli efektlerin yakalanmasına izin vermesidir.
Nick Cox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.