Dört kategorinizin göz renkleri (kod) olduğunu varsayalım: kahverengi (1), mavi (2), yeşil (3), ela (4) —hızan heterokromya, menekşe, kırmızı, gri vb.
Hiçbir şekilde (şu anda hayal edebileceğim) , ve kodlarına göre yeşil brown veya kodlarımızda belirtildiği gibi ela blue anlamına gelmez .= 3 ×= 2 ×3 = 3 × 14 = 2 × 2
(Nedense biz sürece nedenle yapmak analizlerde içine kayma için böyle bir anlam istiyorum), biz kodlama çeşit kullanmak gerekir. Kukla kodlama, göz rengiyle ilgili anlatmak istediğimiz istatistiksel hikayelerden bu tür ilişkileri ortadan kaldıran bir örnektir. Efekt kodlama ve Heckman kodlama diğer örneklerdir.
Güncelleme: dört kategori için iki değişken örneğiniz, tipik olarak kategorilerini (4 diyelim) kukla değişkenlerle (gözlemleri kategoriye göre sıralamak ) değiştirmeyi gerektiren "kukla kod" terimini anlamamla eşleşmiyor :kk - 1
id category dummy1 dummy2 dummy3
1 1 1 0 0
2 1 1 0 0
3 2 0 1 0
4 2 0 1 0
5 3 0 0 1
6 3 0 0 1
7 4 0 0 0
8 4 0 0 0
Burada kategori 4, modelinizde aşağıdaki gibi bir sabit olduğu varsayılarak referans kategorisidir:
y= β0+ β1d1 + β2d2 + β3d3 + ε
burada , kategori = 4 olduğunda ortalama değeridir ve her bir kukla ile ilişkili terimleri , o kategori için dan ne kadar değiştiğini gösterir .β0yβyβ0
Eğer varsa yok (bir sabit olması modelinde terim), o zaman kukla o sırada yürürlükte bir daha "kukla" öngorücunun (belki daha az sıklıkta adlandırılan "göstergesi değişkenleri"), her bir kategori için bir model sabiti olarak her davranır ihtiyaç :β0
y= β1d1 + β2d2 + β3d3 + β4d4 + ε
Yani bu , ilk başta bahsettiğim kategori kodları arasında saçma sapan niceliksel ilişkiler yaratma sorununu çözecekti , ancak neden user12331 kodlamasını kullanmıyorsunuz ? user12331 kodlama adayı A:
id category code1 code2
1 1 0 ?
2 1 0 ?
3 2 1 ?
4 2 1 ?
5 3 ? 0
6 3 ? 0
7 4 ? 1
8 4 ? 1
birinin 2 ikili değişken (yani iki bit) kullanarak 4 değeri temsil edebileceğini belirtmek için haklısınız . Ne yazık ki, buna bir yaklaşım (kategori 1 ve 2 için kod1 ve kategori 3 ve 4 için kod2) soru işaretlerinin belirlediği belirsizliği bırakır: hangi değerler oraya gider ?!
Peki, ikinci bir yaklaşıma ne dersiniz user12331-kodlama adayı B:
id category code1 code2
1 1 0 0
2 1 0 0
3 2 0 1
4 2 0 1
5 3 1 0
6 3 1 0
7 4 1 1
8 4 1 1
Orada! Belirsizlik yok, değil mi? Sağ! Ne yazık ki, tüm bu kodlama ikili gösterimde 1–4 (veya 0-3) sayısal miktarları temsil eder, bu da bu istenmeyen nicel ilişkileri kategorilere verme problemini sağlam bırakır.
Bu nedenle, başka bir kodlama şemasına duyulan ihtiyaç.
β