Bir hot encoding ve one out encoding arasındaki fark nedir?


13

Ben bir sunum okuyorum ve bir dışarı kodlama bırakın kullanmamanızı önerir, ama bir sıcak kodlama ile sorun değil. İkisinin de aynı olduğunu düşündüm. Herkes aralarındaki farkların ne olduğunu açıklayabilir mi?


1
Dışarıda bırakılan şeyin bile ne olduğu belli değil (sadece sorunuzdan). Bir işaretçi vermek ve ikisini anladığınızı ve neden aynı olduklarını düşündüğünüzü kısaca açıklamak için bunu düzenlemeniz gerekir.
Sean Owen

Yanıtlar:


15

Muhtemelen Owen Zhang'ın stratejisine atıfta bulunmak için "birini kodlamayı dışarıda bırak" kullanıyorlar.

Gönderen: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories

Kodlanmış sütun geleneksel bir kukla değişken değildir, bunun yerine, satırın kendisi hariç, bu kategorik seviye için tüm satırlar üzerindeki ortalama yanıttır. Bu, doğrudan yanıt sızıntısını önlerken, kategorinin tek sütunlu bir temsiline sahip olmanın avantajını sağlar

Bu resim fikri iyi ifade ediyor. resim açıklamasını buraya girin


Açıklamanız belirtilen bağlantıdaki wacax'lardan daha iyi, teşekkür ederim
Allan Ruin

Merhaba @Dex Groves, bu yüzden test için leave_one_out kodlama her zaman .5?
user7117436

3
Selam! Resimden görüldüğü gibi, bu patiküler örnek sınıflandırma problemi ile ilgilidir. Regresyon problemi içinde LOO kodlaması olan var mı? Ana soru, hedef değişkenin nasıl toplanacağıdır. Şimdi deneyler yapıyorum ve ortalama (y) ile çok fazla uyuşuyorum.
Alexey Trofimov

1
Kümeleme (denetimsiz) sorunu için, bu tür kodlamayı kullanmak mümkün mü?
enneppi

@AlexeyTrofimov - daha düşük varyanslı bir toplama deneyin. Farklı binning (1K, 2K, 2M, .. gibi) büyük y int değerleri için veya y float değerleri için ondalık bir yere yuvarlama ile başlardım => ortalama (bin_f (y))
mork
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.