Hashing Trick - gerçekte ne olur

ML algoritmaları, örneğin Vowpal Wabbit veya tıklama oranı yarışmaları ( Kaggle ) kazanan faktorizasyon makinelerinden bazıları olduğunda, özelliklerin 'karma' olduğunu belirtin, bu model için gerçekten ne anlama geliyor? İnternet eklentisinin kimliğini temsil eden ve '236BG231' gibi değerleri alan bir değişken olduğunu varsayalım. Sonra bu özelliğin rasgele bir tamsayıya hash olduğunu anlıyorum. Ama sorum şu:

Şimdi modelde tamsayı (sayısal) olarak kullanılan tamsayı VEYA
karma değeri aslında hala bir kategorik değişken ve tek-sıcak kodlu gibi mi ele alınır? Yani karma hile sadece büyük veri ile bir şekilde yerden kazanmak için mi?

machine-learning predictive-modeling kaggle

— B_Miner
kaynak

İkinci madde işareti özellik karmaşasındaki değerdir. Karma veri ve seyrek verilere bir sıcak kodlama yerden tasarruf sağlar. Karma algoya bağlı olarak, bir tür boyutsallık azalması görevi gören çeşitli derecelerde çarpışmalara sahip olabilirsiniz.

Ayrıca, Kaggle özelliğinin hash edilmesi ve özellik tahmini genişletme / mühendislik ile ilgili bir sıcak kodlama yardımı, daha sonra genellikle öngörücü etkileşimler yaratan çarpışmalarla karıştırılan özelliklerin tüm gruplarını (genellikle sadece ikinci derece ancak bazen üçüncü) alarak oysa bireysel özellikler değildir.

Çoğu durumda, bu teknik, LR'deki özellik seçimi ve elastik ağ düzenlenmesi ile birleştirildiğinde, tek bir gizli katman NN'ye çok benzer şekilde hareket eder, bu nedenle yarışmalarda oldukça iyi performans gösterir.

— cwharland
kaynak

Bu nedenle, tek-sıcak kodlama hala kullanılır, sadece söylediğiniz gibi yerden tasarruf sağlar ve boyutsal azalmaya neden olabilir (verilen çarpışmalar). Bu doğru mu?

— B_Miner

Bir Ana Kodlama, karma özelliklerin gerekli bir parçası değildir, ancak tahmini güçle iyi bir şekilde yardımcı olduğu için genellikle birlikte kullanılır. Bir sıcak kodlamayı düşünmenin bir yolu, bir özelliği N ayrık değerler kümesinden küme N ikili sorulara dönüştürmektir. Belki de J özelliğinin 2 veya 3 olup olmadığını bilmek benim için önemli değil. 4 değil. One Hot bu ayrımı özel kılıyor. Bu, lineer modellerde çok yardımcı olurken, topluluk yaklaşımları (RF gibi), bu ayrımı bulmak için özellikteki kırılma noktalarını tarar.

— cwharland