Cinsiyet neden tipik olarak 1/2 yerine 0/1 olarak kodlanır?


25

Veri analizi için kodlamanın mantığını anlıyorum. Aşağıdaki sorum belirli bir kodun kullanımı ile ilgili.

  • Cinsiyetin genellikle kadınlar için 0, erkekler için 1 olarak kodlanmasının bir nedeni var mı?
  • Bu kodlama neden 'standart' olarak kabul ediliyor?
  • Bunu Female = 1 ve Male = 2 ile karşılaştırın. Bu kodlamada bir sorun mu var?

15
0/1 kodlama şemasını kullanmak, diğerleri arasında regresyon modellerini uygularken, örneğin -1/1 (ancak regresyon katsayılarının yorumlanmasını değiştirecek) olmasına rağmen, regresyon modellerini uygularken esasen kullanışlıdır. Yine de veri girişi ile karıştırılmamalıdır (yani, gerçekten veritabanına ne koydun). Bu durumda, tüm etiketleri saklamak daha iyidir. Regresyon modelinizi oluştururken bunları sayısal değerlere dönüştürün veya özel bir tasarım matrisi oluşturun. Aksi takdirde, 0 ve 1’lerin 5 yıl içinde neler beklediğini söylemeniz için size bol şans diliyorum.
chl

Veritabanında kodlanmış cinsiyeti erkek, kadın ve bilinmeyen olarak gördüm.
Aksakal

2
Bence bu soru en iyisi şaşkın iki soru olarak kabul edilir. Daha büyük soru, bir gösterge veya yapay değişken için neden 0-1 kodlama kullandığıdır. Küçük soru, neden kadınlar için 1, kadınlar için 0 kullanılması, kısa bir cevabın, kadınlar için 1'in tersi de dahil olmak üzere diğer birçok kodlamanın kullanımda olduğu ve ayrıca bilinmeyen cinsiyet ve cinsiyete izin veren çeşitli karmaşık kodlamalar olduğu; diğer cinsiyet kategorileri.
Nick Cox

Yanıtlar:


38

İkili değişkenlerin sıfır bir kodlamasını tercih etme nedenleri:

  • Bir sıfır-bir değişkenin ortalaması, bir değerle temsil edilen kategorideki oranı temsil eder (örneğin, erkeklerin yüzdesi).
  • Basit bir regresyonda burada sıfır-bir değişkendir, sabit basit bir yorumlamaya sahiptir (örneğin kadınlar için ortalamasıdır ).x a yy=a+bxxay
  • İki değer arasındaki farkın bir (yani, sıfır-bir, aynı zamanda bir-iki) olduğu herhangi bir ikili değişkenin kodlanması, regresyon katsayısına basit bir yorum verir (örneğin, , kadından erkeğe gitmenin etkisidir). y).b

İkili değişkenlerin kodlanması hakkında çeşitli noktalar:

  • Kategorilerin sırasını koruyan bir ikili değişkenin kodlanması (örneğin, kadın = 0, erkek = 1; kadın = 1, erkek = 2; kadın = 1007, erkek = 2000; vb.) diğer değişkenler ile ikili değişken.
  • İkili bir değişkeni bu şekilde bildiren tüm tablolar değişkenin nasıl kodlandığını açıkça göstermelidir. Değişkeni, birinin değerini temsil eden kategoriye göre etiketlemek de faydalı olabilir: örneğin, y = a + b * Maleyerine y = a + b * Gender.
  • Bazı ikili değişkenler için, bir kategori daha doğal olarak bir olarak kodlanmalıdır. Örneğin, tedavi ve kontrol arasındaki farka bakarken, kontrol sıfır olmalı ve tedavi bir olmalıdır, çünkü regresyon katsayısı en iyi tedavinin etkisi olarak düşünülür.
  • Kategorileri çevirmek (örneğin, kadın = 1 ve erkek = 1 yerine kadın = 1 ve erkek = 0 yapmak) korelasyon ve regresyon katsayılarının işaretini çevirir.
  • Cinsiyet durumunda, genellikle kadın = 0, erkek = 1, erkek = 0, kadın = 1 değişkenini kodlamak için doğal bir neden yoktur. Ancak, kongre bir kodlamanın bir okuyucuya daha aşina olduğunu söyleyebilir; veya regresyon katsayısını pozitif yapan bir kodlama seçmek yorumlamayı kolaylaştırabilir. Ayrıca, bazı bağlamlarda, bir cinsiyet referans kategorisi olarak düşünülebilir; örneğin, erkek egemen bir meslekte kadın olmanın gelir üzerindeki etkisini araştırıyorsanız, kadın olmanın etkisinden bahsetmek için erkek = 0 ve kadın = 1 kodlaması mantıklı olabilir.
  • Regresyon katsayılarının düşünceli yollarla ölçeklendirilmesi, regresyon katsayılarının yorumlanabilirliği üzerinde güçlü bir etkiye sahip olabilir. Andrew Gelman bunu biraz tartışıyor; örneğin onun 2008 kağıt bakınız iki standart sapma (PDF) bölerek Ölçekleme regresyon girdileri içinde Tıpta İstatistik , 27, 2865-2873.
  • Erkek ve dişi değeri -1 ve + 1 olarak kodlamak, anlamlı katsayılar sağlayabilen başka bir seçenektir (bkz. "Etki kodlaması nedir" ).

18
Ah, her zaman kadın = 0 ve erkek = 1 kodlamanın doğal nedeninin "anatomi" olduğunu düşündüm ...
Matt Parker

2
@ matt komik. Hiç böyle düşünmemiştim. Her zaman, feministlerin erkeklerin sahip olduğu bir şeyin olmayışıyla tanımlanan kadınları gören ideolojileri nasıl eleştirdiklerini öğrendiğiniz, Sanat derecemin lensinden etkilenmiştim. Böyle bir lens aracılığıyla, biraz mizahi bir şekilde, cinsiyetin kodlanması politik bir mesele haline gelir :-)
Jeromy Anglim

13
Bir alışkanlık olarak, 0/1 kodlama şemasının ne anlama geldiğini netleştirmek için her zaman bir cinsiyet değişkeni adını "Kadın" gibi bir şeye değiştiririm.
Fomite

Jeromy, tartışma gözlemlemek isteyecektir stats.meta.stackexchange.com/a/4881/3277 bir yorumda, pro / con biz ayrı bir etiket [kukla-değişkenler] ihtiyaç olup olmadığı ve de ki?
ttnphns

Cinsiyet kromozomları X ve Y çifti göz önüne alındığında, dişiler XX ve erkeklerde XY kromozomları vardır. X = 0 ve Y = 1 alarak, dişi = XX = 00 = 0 ve erkek = XY = 01 = 1 olduğunu görebiliriz.
Gürol Canbek

14

Sonuçları yorumlamayı kolaylaştırır. Bazı yükseklik verilerinizin olduğunu varsayalım:

Woman A: 165
Woman B: 170
Woman C: 175
Man D: 170
Man E: 180
Man F: 190 

ve formun bir gerilemesini aldın Height = a + b * Gender + Residual.

0,1 kukla değişkeni ile a, 170 kadının kadınların ortalama yüksekliği ve b10'un erkeklerin kadınlarla ortalama boyları arasındaki fark olduğunu tahmin edersiniz .

1,2 kukla değişkenle ayorumlanması zor olan 160'ın bir tahminini elde edersiniz .


Teşekkürler. İstatistikleri 'ışık hızında' öğreniyorum çünkü bu benim yeni işimin bir gereği. Bu kodlama hala korelasyon analizinde geçerli midir?
Adhesh Josh,

1
@Adhesh İki kantitatif değişken arasındaki korelasyonu kastediyorsanız, kodlama sorunu yoktur: sadece ham önlemleri kullanın. Sorunuz iki kalitatif değişken arasındaki ilişkiyle ilgiliyse, yeni bir soru sormayı düşünebilirsiniz, ancak açıkçası bu durumda çok fazla zorluk yok (değişken kategorileri için eşit olmayan aralıklı puanlar kullanmak istemiyorsanız, ancak bu konuda başka bir yerde cevaplanmadıysa site).
chl

4
@Adesh İkili kod 1/2 veya 0/1 kodlamak, korelasyon katsayınızı etkilememenizi sağlar. Ayrıca, 0/1, değişkenin ortalamasının hangisinin hangisine bağlı olduğuna bağlı olarak yüzde erkek veya kadın olması avantajına sahiptir. Diğer kodlama şemaları, farklı analiz türlerini yorumlamak için faydalı olabilir.
Michael Bishop,

2

Bunun cinsiyet cinsiyetini saklamak için sıklıkla kullanılan alan türünün bir bit alan olduğunu ve SQL'deki bit alanlarının yalnızca 0 veya 1 değerlerini alabileceğini varsaymıştım. Verileri elden çıkardığınızda 0 veya 1 olarak ortaya çıkıyor ve bu yüzden bu belirli değerleri elde edersiniz.

Eğer 1 ve 2'yi kullanmak isteseydiniz, daha fazla yer kaplayacak ve böylece tüm veritabanını biraz daha büyük yapacak daha büyük bir alan tipi kullanmanız gerekirdi.


Bir SQL programcısı olarak bu benim de ilk tepkimdi. Cinsiyet için 0 ve 1'i kullanmanın kesin matematiksel sebeplerinden emin değilim, ancak ivme bazılarının mümkün olan en küçük veri tiplerini kullanma ihtiyacından geldiğini biliyorum. Endüstride standartlar geleneklerden geliştirildi ve herkes sıraya düştü. Bunun için ANSI standartlarının geçmişini kontrol etmek faydalı olabilir. Bu günlerde DBA'ların cinsiyet için bayt veya küçük tamsayı sütunları kullanmasına, “şirket varlığı” veya “belirsiz” gibi olağandışı istisnaları belirtmek için bir baskı var, ancak birçok eski veritabanı hala eski standardı yansıtıyor.
SQLServerSteve

2

Bir profesörüm, "biyolojik olarak" kodladığımızı ve kadınların 0 ve erkeklerin 1 - anatomiyi yansıttığını önerdiğini söyledi. Bir sınıfta söylenecek en hassas ya da PC olayı olduğunu sanmıyorum, ancak 5 yıl sonra veri setine bakarken hatırlanması kesinlikle kolay.


Bu açıkça, sorunun “gerçek” cevabı değil (belki de bu bir cevaba göre bir yorumdan daha fazlasıdır), fakat anımsatıcı bir çok insanın yararlı bulduğu bir cevaptır.
Silverfish

“Anatomik” den daha “biyolojik” olarak, bana (“neden” in orijinal olarak değil geriye dönük olarak icat edildiğinden şüphelendiğimde) 0'ın “varsayılan” cinsiyet olarak kadın için kullanıldığına dair inancım vardı. embriyolojik gelişme, araya giren süreçler embriyoyu erkek yolunu ayırt etmeye zorlamadığı sürece dişi yol alınır. Bu bir zamanlar yaygın bir inançtı, ancak şimdi modası geçmiş olarak kabul ediliyor : kadın yolunun da aktif olarak tetiklenmesi gerekiyor.
Silverfish

1
Bu durumda, erkekler "00" olarak kodlanmamalıdır.
Harvey Motulsky,

1

Şimdiye kadar yayınlanmış birçok iyi sebep var, ancak aynı zamanda dönüşlü olması gerekiyor. Neden 1'de saymaya başladın? Sayısal algoritmaları çok daha karmaşık hale getirir. Etiketleme 1 ile 0'da başlar. Henüz ikna olmuyorsanız, bunun neden önemli olduğuna dair güzel bir örnek verdim: http://madhadron.com/?p=69

Kadınların neden 0 ve erkeklerin 1 olduğu ile ilgili olarak, bir istatistikçinin düz bir erkek olma ihtimalinin büyük olduğunu hatırlayalım. Bir sekse isim sorulduğunda, akla ilk gelen kadındı. Bundan sonra her şey muhtemelen tarihi bir kazaydı ve rasyonalizasyon oldu.


-1

ISO / IEC 5218 standardı güncellemeler aşağıdaki harita ile bu kavram:

0 = not known,
1 = male,
2 = female,
9 = not applicable.

Bu özellikle, 0'ın JavaScript gibi yanlış bir değere zorlandığı dillerde faydalıdır:

if ( !user.gender ) {
    promptForGender();
}

10
Bu tür bir standardın gerçekten veri iletimi ve / veya depolama için olduğunu not etmek önemlidir . Veri analizi için bir standart olarak yeterli değil , bu da sorunun ne olduğu ile ilgili.
whuber

-2

Şahsen görme biçimim, 0 olarak belirsizdir, rahim şekli olduğu için tipik olarak dişidir ve neredeyse tüm bilimlerde (yani biyoloji / genetik soyağacı çizelgelerinde) daireler ya da sıfırlar kadınları temsil eder. Düz kenarlı şekillerin (üçgenler, kareler veya 1'ler) erkek cinsiyetini temsil etme eğiliminde olduğu yerlerde. Bu basit anlayış benim için hangisinin hangisi olduğunu her zaman hatırlamayı kolaylaştırdı.

Günün sonunda, verileri kodlayan ve analiz eden kişi siz olsanız da, istediğiniz rakamları koyabilirsiniz, genellikle hangi kukla değişkeni kullanacağınızla ilgili bir anahtar olduğu sürece, bunun için bir anlam ifade etmez.


2
Aptal bir soruya garip cevap.
Michael R. Chernick
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.