kukla değişkenleri merkezleme ve ölçeklendirme


13

Hem kategorik değişkenleri hem de sürekli değişkenleri içeren bir veri setim var. Kategorik değişkenleri her seviye için ikili değişkenler olarak dönüştürmem önerildi (yani, A_level1: {0,1}, A_level2: {0,1}) - Bence bazıları buna "kukla değişkenler" adını verdiler.

Bununla birlikte, tüm veri kümesini yeni değişkenlerle ortalamak ve ölçeklendirmek yanıltıcı olur mu? Değişkenlerin "açık / kapalı" anlamını kaybedecekmişim gibi görünüyor.

Yanıltıcıysa, bu, sürekli değişkenleri ayrı olarak ortalamalı ve ölçeklendirmeli ve ardından veri kümeme yeniden eklemem gerektiği anlamına mı geliyor?

TIA.


1
Kukla değişkenleri ortalamanın ve / veya ölçeklendirmenin kabul edilebilir veya makul olup olmadığı, uygulamaya, planladığınız analize ve göreve özgü hususlara bağlıdır. Yani tek bir doğru cevap yok. Çoğu genel, kaba formülasyonda, bunu öngörücü kukla değişkenlerle yapmak genellikle uygundur; yanıt kukla değişkenleri ile veya kümeleme veya faktör analizi gibi çok değişkenli yöntemlerde genellikle kötü bir fikirdir.
ttnphns

Yanıtlar:


13

Regresyon analizlerinde kullanmak için kukla değişkenler oluştururken, bir kategorik değişken içindeki her kategori bir ikili değişken almalıdır. Bu nedenle örneğin A_level2, A_level3 vb. Olmalıdır. Kategorilerden birinde ikili değişken olmamalıdır ve bu kategori referans kategorisi olarak işlev görecektir. Kategorilerden birini atlamazsanız, regresyon analizleriniz düzgün çalışmaz.

SPSS veya R kullanıyorsanız, bu yazılım paketleri genellikle sadece iki seviyeli değişkenleri faktör olarak yorumladığından, tüm veri kümesinin ölçeklendirilmesi ve ortalanmasının genellikle bir sorun olacağını düşünmüyorum, ancak kullanılan belirli istatistiksel yöntemlere bağlı olabilir . Her durumda, ikili (veya kategorik) değişkenleri ölçeklemek ve ortalamak mantıklı değildir, bu nedenle sürekli değişkenleri yalnızca bunu yapmanız gerekiyorsa ortalamalı ve ölçeklendirmelisiniz.


2
Benim güçlü duygum, cevabın OP sorusunu gerçekten cevaplayan tek kısmının son cümle - o kısmı açıklanamayan olmasıdır. Onları ölçeklemeyin ama nedenini açıklama. Bu arada, konu çok kolay değil.
ttnphns

Bu, kategorik değişkenleri kodlamanın sadece bir yoludur. Tam bir cevap yazmak için zamanım yok, ancak "kontrastları" aramak yardımcı olabilir. İlgili bir cevap stats.stackexchange.com/questions/60817/…
user20637

3

R kullanıyorsanız ve kukla değişkenleri veya 0 veya 1 olan değişkenleri yalnızca 0 ile 1 arasında bir ölçeğe ölçeklerseniz, bu değişkenlerin değerlerinde herhangi bir değişiklik olmaz, sütunların geri kalanı ölçeklenir.

maxs <- apply(data, 2, max) 
mins <- apply(data, 2, min)

data.scaled <- as.data.frame(scale(data, center = mins, scale = maxs - mins))

İlginç bir ipucu. Paylaşım için teşekkürler. Sorduğumdan beri biraz oldu, ama bu eski gönderilerden hala öğrenebildiğimi görmek güzel.
user2300643

3

Regresyonda ortalama merkezleme noktası, kesişim noktasını daha yorumlanabilir kılmaktır. Yani, regresyon modelinizdeki tüm değişkenleri ortada kastettiğinizde, kesişme noktası (SPSS çıktısında Sabit olarak adlandırılır) sonuç değişkeniniz için genel ortalamaya eşittir. Son modeli yorumlarken uygun olabilir.

Kukla değişkenleri merkezlemek, bir profesörle regresyon modelindeki ortalama merkezleme kukla değişkenleri hakkında konuştum (benim durumumda 3 seviyeli rastgele blok tasarım çok düzeyli bir model) ve alıp götürmek, kukla değişkenler aslında regresyon katsayılarının yorumunu değiştirmez (çözümün tamamen standartlaştırılması hariç). Genellikle, regresyonda gerçek birim seviyesi ortalama ortalanmış değeri - sadece katsayıları - yorumlamak gerekli değildir. Ve bu aslında değişmez - çoğunlukla. Biraz değiştiğini söyledi, çünkü aptallar için anlaşılması kadar sezgisel olmayan standartlaştırıldı.

Dikkat: Profesörümün bürosundan ayrıldığımda bu benim anlayışımdı. Elbette yanlış anlayabilirdim.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.