Lojistik regresyonda (SPSS) ikili olmayan kategorik değişkenlerle nasıl başa çıkılır?


10

Bir çok bağımsız değişkenle ikili lojistik regresyon yapmak zorundayım. Bunların çoğu ikili, ancak kategorik değişkenlerin birkaçı ikiden fazla seviyeye sahip.

Bu değişkenlerle baş etmenin en iyi yolu nedir?

Örneğin, üç olası değere sahip bir değişken için, iki yapay değişkenin oluşturulması gerektiğini düşünüyorum. Sonra, adım adım regresyon prosedüründe, kukla değişkenlerin her ikisini aynı anda test etmek veya ayrı ayrı test etmek daha mı iyidir?

SPSS kullanacağım, ama çok iyi hatırlamıyorum, bu yüzden: SPSS bu durumla nasıl başa çıkıyor?

Ayrıca, sıralı kategorik bir değişken için sıralı ölçeği yeniden oluşturan kukla değişkenler kullanmak iyi bir şeydir? (Örneğin, koyun, 4-hal sıra değişken, üç kukla değişkenleri kullanarak 0-0-0seviyesi , seviye için , seviye için ve düzeyi için yerine , , ve 4 seviyeleri için).11-0-021-1-031-1-140-0-01-0-00-1-00-0-1


2
Bu sadece kısmi bir cevaptır: mankenleri açıkça oluşturduğunuzda bile (yazılımın örtülü yeteneklerini kullanmak yerine), bunları tüm analizlerde bir arada tutun. Özellikle, hepsi birlikte girmeli ve hepsi kademeli bir regresyonda bir arada kalmalıdır, p-değeri ilgili toplam değişken sayısı için uygun şekilde hesaplanmalıdır. (Bu yine de Hosmer & Lemeshow'un tavsiyesi ve çok mantıklı.)
whuber


Bağımsız değişkenlerinizden bahsediyorsunuz. Lojistik regresyon için ikili olması gereken sadece bağımlı değişkenlerdir.
John

1
Burada dikkat edilmesi gereken bir nokta, kademeli seçim prosedürlerini hiç kullanmamanızdır; geçerli değiller. Bu mantıklı değilse / nedenini anlamak istiyorsanız, cevabımı burada okumanıza yardımcı olabilir: otomatik model seçimi için algoritmalar .
gung - Monica'yı eski durumuna getirin

Yanıtlar:


10

UCLA web sitesinde, tanıdığınız yazılım türüne göre ayrılmış her prosedür için bir sürü harika öğretici bulunmaktadır. Check out Açıklamalı SPSS Çıktı: Lojistik Regresyon - onlar söz SES değişken (ikili değil) kategorik olduğunu. SPSS sizin için gösterge değişkenlerini otomatik olarak oluşturur. Ayrıca , SPSS ile Regresyondaki Kategorik Tahminlere adanmış , varsayılan kodların nasıl değiştirileceği hakkında özel bilgilere ve Lojistik Regresyona özgü bir sayfaya da sahiptir .


7

Lojistik regresyon oldukça esnek bir yöntemdir. Bağımsız değişkenler kategorik değişkenler olarak kolayca kullanılabilir. Lojistik regresyon kullanan çoğu yazılım kategorik değişkenleri kullanmanıza izin vermelidir.

Örnek olarak, kategorik değişkeninizden birinin üç kategoride tanımlanan sıcaklık olduğunu varsayalım: soğuk / hafif / sıcak. Önerdiğiniz gibi, her biri 1 veya 0 değerine sahip üç ayrı kukla değişken olarak yorumlayabilirsiniz. Ancak, yazılım soğuk / hafif / sıcak metin değeri yerine tek bir kategorik değişken kullanmanıza izin vermelidir. Ve logit regresyonu, üç sıcaklık koşulunun her biri için katsayı (veya sabit) türetecektir. Biri önemli değilse, yazılım veya kullanıcı bunu kolayca çıkarabilir (t stat ve p değerini gözlemledikten sonra).

Kategorik değişken kategorilerini tek bir kategorik değişkene gruplamanın en büyük yararı model verimliliğidir. Modelinizdeki tek bir sütun, tek bir kategorik değişken için gereken sayıda kategoriyi işleyebilir. Bunun yerine, kategorik bir değişkenin her kategorisi için bir kukla değişken kullanırsanız, modeliniz belirtilen alternatif göz önüne alındığında çok sayıda sütuna sahip olacak şekilde hızla büyüyebilir.


1
@gaetan Tek bir sütun ile birden çok sütun arasındaki açıklamayı anlamıyorum. Kategorik değişkenlerin kukla değişkenler kullanmak yerine tek bir sütunda 1, 2, 3 vb. Olarak kodlanması gerektiğini mi düşünüyorsunuz? Daha sonra, leve1s 1 ve 2 arasındaki dv üzerindeki etki farkının, 2. ve 3. düzeyler arasındaki dv üzerindeki etki farkı ile aynı olduğu örtük bir kısıtlama uyguladığınız için bana mantıklı gelmediğinden emin değilim. bir şey eksik.

1
@Gaetan Seni takip ettiğimden emin değilim. XLStat, soğuk, ılık veya sıcak 'metin' değerlerini tam olarak tahmin amacıyla nasıl sayısal değerlere dönüştürür? Kategorik değişkenlerin etkilerini kukla değişkenler kullanmadan tahmin etmenizi sağlayacak bir yöntem varsa, temelde bazı kavramsal / model tabanlı mantık olması gerektiği için kullandığınız yazılımdan bağımsız olmalıdır.

@Gaetan Sıra değişkeninizin sürekli olarak değerlendirildiğini düşünmedikçe noktanızı takip etmiyorum (bu bazen mantıklı olabilir, ancak değişkenin @Skrikant'ın işaret ettiği gibi bir aralık ölçeğinin özelliğini devralabileceğini açıkça varsayıyoruz) . Genellikle, düzeylerine sahip bir değişken tasarım matrisinde sütunları olarak temsil edilir ve bence bu kullanılan yazılımdan oldukça bağımsızdır (elbette XLStat, R, SPSS veya Stata'nın yaptığı gibi doğru tasarım matrisini oluşturmaya özen gösterir) . kk1
chl

1
@Gatean Tamam, bu durumda, SPSS'de aynı şey yapılabilir (her değişken için sayısal / sıralı / nominal arasında seçim yapabilirsiniz) - o zaman tasarım matrisi buna göre oluşturulur.
chl

2
@Gaetan @chl Anlayışımı özetlemek gerekirse: SPSS ve XLStat'ın ölçüm ölçeğini (nominal, sıralı vb.) Belirtebileceğiniz özellikleri veri dosyasının boyutunu küçültür. Bununla birlikte, her iki durumda da yazılım, arka plandaki tahmin sürecinin bir parçası olarak doğru kodlama şemasını kullanır (örn. J kategorileriyle nominal bir değişkeni J-1 kukla değişkenlerine genişlet). Bu durumun adil bir değerlendirmesi olabilir mi?

0

Anladığım kadarıyla, kategorik / nominal veriler için kukla değişken kullanmak iyi olurken, sıralı veriler için farklı seviyeler için 1,2,3 kodlamasını kullanabiliriz. Kukla değişken için belirli bir gözlem için doğruysa 1 ve aksi takdirde 0 kodlayacağız. Ayrıca kukla değişkenler no'dan 1 daha az olacaktır. Örneğin ikili düzeyde seviyeler 1 var. Kukla değişkente tüm '0' gözlemi, kodlanmamış kukla için otomatik olarak 1 yapar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.