Regresyon için yüksek kardinalite kategorik özellikleri ile özellik önemi (sayısal bağımlı değişken)


12

Tüm özelliklerin kategorik olduğu ve birçoğunun (100-1000 sırasına göre) birçok seviyeye sahip olduğu bir regresyon problemi için bazı ampirik özellik seçimi yapmak için Rastgele Ormanlardan özellik ithalatlarını kullanmaya çalışıyordum. Bir sıcak kodlamanın her seviye için bir kukla değişken oluşturduğu düşünüldüğünde, özellik içe aktarımları her özellik için (sütun) değil her seviye içindir. Bu özellik ithalatlarını bir araya getirmenin iyi bir yolu nedir?

Bir özelliğin tüm düzeyleri için toplamı veya ortalama önemi almayı düşündüm (muhtemelen eski özellikler daha fazla seviyeye sahip özelliklere yöneltilecektir). Bu konuda referans var mı?

Özellik sayısını azaltmak için başka ne yapılabilir? Kement grubunun farkındayım, scikit-öğrenmesi için kullanımı kolay bir şey bulamadım.


Kategorik değişkenin her seviyesinin değişken öneminin toplanmasının anlamlı olup olmadığı sorusuna cevap verilebilir mi?
see24

@ see24 Hayır, sadece onları toplayamazsınız
Dan

Yanıtlar:


5

Bunları nasıl sıcak kodladığınıza bağlıdır. Bunun için birçok otomatik çözüm, dönüştürülen tüm booleanları bir desenle adlandıracak, böylece AZ değerleri ile "letter" adlı kategorik bir değişken şöyle sonuçlanacaktır:

letter_A, letter_B, letter_C, letter_D, ....

Özellik önemini belirledikten sonra bir dizi özelliğiniz ve buna bağlı ağırlık / öneminiz varsa, diziyi analiz eder ve belki de "letter%" ile başlayan herhangi bir şey için özellik önem ağırlıklarını özetlerim.


3
Toplam, daha fazla seviyeye sahip bu özelliklere bir avantaj sağlamaz mı?
user90772

Hmm, güzel nokta. Belki özetleyin ve sonra "ortalama" bir önem elde etmek için seviye / bir-sıcak kodlanmış değişken sayısına bölün.
CalZ

2
Bunu biraz daha düşündüm ve bu, önemi ne kadar puanladığına bağlıdır. Bazı durumlarda, her özelliğin değeri, tüm setin toplamı 1 olan göreceli bir ağırlıktır. Bu durumda, tek sıcak özellikleri özetlemenin mantıklı olacağını düşünüyorum. Özellik için puan daha çok bir regresyon katsayısına benziyorsa ve net etkiye göre ağırlıklandırılmamışsa, ortalama muhtemelen daha iyi olurdu.
CalZ

Cevabınız için teşekkür ederim. Bölgede oldukça yeni olduğum göz önüne alındığında, bunun veri bilimindeki insanlar için standart bir şey olduğunu düşündüm, ancak ya bir sütunun özellik önemini değerlendirmek için yapmam gereken şey değil ya da bu yazı yeterli görüş alamadı. Her durumda, teşekkürler!
user90772

1
Birçok kişi, modelin iç kısımlarına bir kara kutu olarak bakmayı ve bunun yerine performansı değerlendirmeyi savunuyor. Bazı durumlarda (örn. Sinir ağları) bunun nedeni gerçekten derinlemesine inceleyemezsiniz. Hangi özelliklerin önemli olduğunu kolayca görebileceğiniz bazıları için (örn. Doğrusal regresyon), kolayca yanıltıcı olabilirsiniz (bkz: stats.stackexchange.com/questions/105114/… ). Bence insanlar bazen bireysel özellik önemine bakmaktan çekiniyorlar.
CalZ
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.