Hiç ikili değişkenleri standartlaştırmalı mıydınız?


25

Bir dizi özelliğe sahip bir veri setim var. Bazıları ikilidir aktif veya ateşlenmiş, etkin değil veya hareketsiz) ve gerisi gerçek , örneğin .0 = 4564.342)(1=0=4564.342

Bu verileri bir makine öğrenme algoritmasına beslemek istiyorum, bu yüzden tüm gerçek değerli özellikleri puanladım. Onları yaklaşık ila arasında buluyorum . Şimdi ikili değerler aynı zamanda puanlıdır, dolayısıyla sıfırlar ve değerler .3 - 2 Z - 0,222 0,5555z32z0.2220.5555

Bunun gibi ikili değişkenleri standardize etmek mantıklı geliyor mu?

Yanıtlar:


14

İkili değişkenleri standardize etmek bir anlam ifade etmiyor. Değerler keyfi; kendi başlarına bir şey ifade etmiyorlar. Sayısal stabilite konularında 0 ve 1 gibi bazı değerleri seçmek için bir neden olabilir, ama bu kadar.


Ya 0-100 arasındaysalar. Dediğim gibi, "bir yüzü tanıdı" ve "yüzü tanımadı" gibi şeyler anlamına geliyor, 0-100 ise güven düzeyi anlamına geliyor. Z-skoru yapmak mantıklı mı?
siamii

0-100 örneğiniz sıralı bir derecelendirmeye benziyor. Bu durumla nasıl en iyi şekilde başa çıkılacağına ilişkin bir miktar ayrıntı var ve CV'de biraz tartışıldı. Daha fazla bilgi edinmek için sıralı etiket üzerinde arama yapın .
gung - Monica’yı yeniden kurun

Eh, sorun şu ki değişkenlerin sadece bir kısmı 0-100. Diğerleri örnek olarak -400 - +400
siamii

Buradaki sorun ne? Bu sayısal bir istikrar sorunu mu?
gung - Monica 'ya geri dönün

belki, z-skoru yapmamı önerir misin?
siamii

14

0, 1 değerlerine sahip bir ikili değişken (genellikle), muhtemelen z-puanınız olan (değer - ortalama) / SD'ye ölçeklenebilir.

Bunun en belirgin kısıtı, eğer tüm sıfırları veya hepsini alırsanız, SD'yi kör bir şekilde takmanız, z-skorunun belirsiz olduğu anlamına gelir. Değer - ortalama aynı şekilde sıfır olduğu sürece de sıfır atamak için bir durum vardır. Fakat bir değişken gerçekten sabitse, pek çok istatistiksel şey pek bir anlam ifade etmez. Daha genel olarak, ancak, eğer SD küçükse, puanların dengesiz olması ve / veya iyi tespit edilmemesi riski daha fazladır.

Sorunuza daha iyi bir cevap vermeyle ilgili bir problem, tam olarak ne “makine öğrenme algoritması” düşündüğünüzdür. Birkaç değişkene ait verileri birleştiren bir algoritma gibi gözüküyor ve bu nedenle de benzer ölçeklerde bunları sağlamanın bir anlamı olacak.

(SONRA) Orijinal poster tek tek yorumlar eklerken, onların sorusu morphing. Yine de (değer - ortalama) / SD'nin, SD pozitif olduğu sürece ikili değişkenler için anlamlı (yani saçma değil) olduğunu düşünüyorum. Bununla birlikte, lojistik regresyon daha sonra uygulama olarak adlandırıldı ve bunun için, 0, 1 olarak ikili değişkenlerde beslenmekten başka hiçbir şeye teorik veya pratik kazanç (ve bazı basitlik kayıpları) gelmedi. Yazılımınız, o; değilse, bu yazılımı elinden gelen bir program lehine terk edin. Başlık sorusu açısından: olabilir, evet; gerekir, hayır.


3
Kısa cevap, bunun farklı bir şey ifade etmediği ve 0, 1'den z-puanlarına değiştirmenin bu durumda her şeye yardımcı olmasının bir nedeni olmadığını görüyorum. Kendinizi ikna etmek için her iki yolu da deneyin ve önemli hiçbir şeyin değişmediğini görün.
Nick Cox

3
Aksine, çoğu insan burada 0, 1 kullanır.
Nick Cox

1
Lojistik regresyon yaparken, yazılım neredeyse kesinlikle kesinlikle kaputun altında standardizasyonu gerçekleştirir (daha iyi sayısal özellikler elde etmek için). Bu nedenle, ikili göstergenin anlamlı bir şekilde ifade edilmesini sağlamak iyi bir fikirdir. Standardizasyon iyi ya da kullanışlı gelmiyor.
whuber

1
İkili tahmincileri "standart hale getirmenizi" gerektiren herhangi bir makine öğrenme yöntemi şüphelidir.
Frank Harrell

2
Bu sizin kendi uygulamanız olduğundan, o zaman kimsenin size objektif bir cevap vermesi için bir temeli yoktur! Önceki standardizasyonun anlamlı olup olmadığına karar vermek için yazılımınızın verileri nasıl işlediğini incelemelisiniz.
whuber

3

Biraz farklı bir şekilde standardize etmenin faydalı olabileceği güzel bir örnek, Gelman ve Hill'in 4.2 bölümünde verilmiştir ( http://www.stat.columbia.edu/~gelman/arm/ ). Bu daha çok katsayıların yorumlanması ilgi çekiyorsa ve belki de çok fazla yorucu olmadığı zamandır.

xμx2σx,
σ±0.5x=0x=1σx

Lütfen "eşit oran 0 ve 1" i açıklayın, çünkü gördüğüm ikili değişkenler nadiren böyledir.
Nick Cox,

Oranın gerçekten bir fark yaratacağını düşünmüyorum, sadece örneği daha temiz hale getirmek için kullanıyorlar.
Gosset'in Öğrenci

1

Neyi standartlaştırmak, ikili rasgele değişken veya orantı yapmak istersiniz?

Y:SRY{0,1}

X[0,1]xR+


0

Lojistik regresyonda, ikili değişkenler, N ~ (0,5) veya Cauchy ~ (0,5) gibi daha önce bilgilendirici olmayan bir şey vermek istediğinizde, bunları sürekli değişkenlerle birleştirmek için standardize edilebilir. Standardizasyon aşağıdaki gibi olması tavsiye edilir: Toplam sayımı al ve ver

1 = 1’lerin oranı

0 = 1 - 1'in oranı.

-----

Düzenleme: Aslında ben hiç haklı değildim, bu bir standardizasyon değil, 0'da ortalanacak ve alt ve üst koşullarda 1 ile farklılaşacak bir kayma, bir popülasyonun A şirketi ile% 30 ve diğer% 70 olduğunu söyleyelim. -0.3 ve 0.7 değerlerini almak için merkezli "A Şirketi" değişkenini tanımlayabiliriz.


Bunu bir standardizasyon olarak anlayamıyorum.
Michael R. Chernick
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.