Özellik mühendisliği için öğreticiler


19

Herkesin bildiği gibi, özellik mühendisliği makine öğrenimi için son derece önemlidir, ancak bu alanla ilişkili çok az malzeme buldum. Kaggle'daki çeşitli yarışmalara katıldım ve bazı durumlarda iyi özelliklerin iyi bir sınıflandırıcıdan daha önemli olabileceğine inanıyorum. Özellik mühendisliği hakkında herhangi bir öğretici bilen var mı, ya da bu saf deneyim mi?


1
Özelliklerin (normalleştirme ve diğer dönüşümler) veya özellik seçiminin önceden işlenmesini mi kastediyorsunuz?
MattBagg

2
@ mb3041023 Hayır, metinler, resimler veya seriler gibi bazı ham verileri bazı kullanılabilir özelliklere dönüştürdüğünüz her ikisinden de önceki adım.

8
Deneyimlerime göre, makine öğrenimi sorununun büyük bir kısmı, tam anlamıyla çözülmesi / optimize edilmesi için doğru problemi kuruyor (yani özellikler, özellik gösterimi, seçim, vb.). Tamamen ampirik özellik seçimi ve birçok gerçek hayat resmiyle (kaggle gibi) ön işleme adanmış bir kitap görmek isterim. Herkes birini biliyorsa, pls. İleti. Veri temizleme / veri toplama gibi şeylere adanmış birkaç kitap vardır, ancak özellik seçimiyle ilgili özel bir pratik metne kesinlikle ihtiyaç vardır.
pat

2
"Özellik Çıkarma: Temeller ve Uygulamalar", 2006
jasonb

2
@jasonb, nasıl yazar, boyut, fiyat ve bir bağlantı, şöyle bir şey: Guyon ed., Özellik Çıkarma: Vakıflar ve Uygulamalar 2006, 778p, 306 $
denis

Yanıtlar:


7

Deneyim diyebilirim - temel fikirler:

  • sınıflandırıcıların çalışma şekline uyması; ağaca bir geometri problemi, bir kNN'ye büyük boyut ve SVM'ye aralık verileri vermek iyi bir fikir değildir
  • olabildiğince fazla doğrusallığı ortadan kaldırın; bazı sınıflandırıcıların içinde Fourier analizi yapmasını beklemek oldukça naiftir (orada çok fazla karmaşıklık olsa bile)
  • özellikleri tüm nesneler için genel hale getirin, böylece zincirdeki bazı örneklemeler onları devirmeyecektir
  • önceki işleri kontrol edin - genellikle görselleştirme veya benzer türde verileri test etmek için kullanılan dönüşüm ilginç yönleri ortaya çıkarmak için ayarlanmıştır
  • PCA gibi aşırı sığmaya yol açabilecek dengesiz, optimize dönüşümlerden kaçının
  • çok deney yap

"Aralık verileri" ni nasıl tanımlarsınız? Google'da arama yaptım ve birçok farklı tanım buldum.
güç

PCA noktasını ayrıntılandırabilir misiniz?
Daniel Velkov

@power Örneğin ve karar gibi ayarlanır | x - en yakın prime | < 0.3 , yani öznitelik basit bir sürekli dönüşüme koymak yerine birçok aralığa bölünmelidir. x|xnearest prime|<0.3

@DanielVelkov PCA'yı oldukça gürültülü bir veriye önyüklediğinizde bileşenler genellikle kararsızdır; bu, tüm sette bir küresel PCA yapma fikrini teşvik eder, bilgi sızdıran ve değerlendirmeyi bozmanın doğrudan bir yolu.

@mbq ya PCA sadece eğitim setinde, olması gerektiği gibi çalıştırılıyorsa?
Daniel Velkov

1

O'Reilly'den Zheng ve ark. Tarafından “ Makine Öğrenimi için Özellik Mühendisliği ” adlı bir kitap var .

Kitabı okudum ve farklı veri türlerini (örneğin kategorik, metin ...) kapsar ve onunla birlikte gelen özellik mühendisliğinin farklı yönlerini açıklar. Bu, verilerin normalleştirilmesi, özellik seçimi, metindeki tf-idf gibi şeyleri içerir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.