Anlamsal anlamı koruyan alan-agnostik özellik mühendisliği?


12

Özellik mühendisliği genellikle makine öğrenimi için önemli bir bileşendir ( 2010'da KDD Kupası'nı kazanmak için yoğun olarak kullanılmıştır ). Ancak, çoğu mühendislik tekniğinin de

  • altta yatan özelliklerin sezgisel anlamlarını yok etmek veya
  • belirli bir alan adına ve hatta belirli türdeki özelliklere çok özeldir.

Birincisinin klasik bir örneği temel bileşen analizi olacaktır. Bir konu uzmanının özellikler hakkında sahip olabileceği her türlü bilginin, bu özellikleri temel bileşenlere dönüştürerek yok olacağı bana geliyor.

Bunun bir tarihi basit bir teknikle "ayın günü" ve "haftanın günü" için özelliklere dönüştürme yöntemi ile karşılaştırın. Altta yatan anlam hala yeni özelliklerde korunmaktadır, ancak açıkçası bu özel teknik sadece tarihler için geçerlidir ve keyfi özellikler için geçerli değildir.

Keyfi alanlara (veya en azından çok çeşitli alanlara) uygulanabilirken, temeldeki özelliklerin anlamını yok etmeyen standart bir özellik mühendisliği teknikleri var mı?


2
PCA bazen özellikler için sezgisel anlamlar bulmak için kullanılabilir - örn. Özyüzler .
tdc

Aklınızdaki verilere (daha fazla) örnek verebilir misiniz? eğer uygulamanız hakkında daha spesifik olabilirseniz (bazı keyfi örnekler bile) (daha fazla) doğru cevap vermek daha kolay olacaktır.
Dov

1
@Dov Peki bütün mesele (ideal) Ben hemen hemen herhangi yapılandırılmış, tablolu veri kümesi (veri noktaları ve özellikleri olan bir) için işe yarayabilir bir şey istiyorum. Bu satış verileri, finansal veriler, ilaç keşfi verileri, beyzbol verileri vb.
Olabilir

Yanıtlar:


7

Tarif ettiğiniz gibi bir senaryoda yararlı olabilecek bir ayrıştırma yönteminin farkındayım (ama belki daha fazlası da vardır). Bu, ayrışmanın (yani faktörlerin) bir anlamı olduğu yüksek dereceli bir ayrıştırma yöntemi olan 2D-PCA'ya benzer. Sen örneklerini görmek ve bu konuda bilgi edinebilir burada ve burada ve denemek burada


+ Lütfen ben anadili İngilizce olmadığımı affet :)
Dov

Bana söylendiğinden, PCA'nın son adımı, temel bileşenler için anlam bulmaya çalışılmalıdır.
jb.

5

Kısıtlı Boltzmann Makinesi kullanan son derin öğrenme yöntemleri, çeşitli veri türlerinde (ses, görüntü, metin) hoş özellikler göstermiştir.

Bu yöntemler üretken bir model oluşturduğundan, genellikle modelden gerçekten güzel örnekler üretebilirsiniz.

Hinton'ın yayınlarına göz atın. http://www.cs.toronto.edu/~hinton/

Bu yöntemler tamamen genel değildir (her veri için aynı kodu çalıştırın), ancak temel alınan model genellikle benzerdir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.