Özellik seçimi ve Özellik çıkarma. Ne zaman kullanılır?


16

Özellik çıkarma ve özellik seçimi, temel olarak verilerin boyutsallığını azaltır, ancak özellik çıkarma, eğer haklıysam, verileri daha ayrılabilir hale getirir.

Hangi teknik diğerine ve ne zaman tercih edilir ?

Özellik seçimi orijinal verileri ve özelliklerini değiştirmediği için, üzerinde çalıştığınız özelliklerin değişmemesi önemli olduğunda özellik seçimini kullanacağınızı düşünüyorum. Ama neden böyle bir şey istediğini düşünemiyorum ..

Yanıtlar:


18

Toros'un verdiği cevaba ekleyerek,

Bu (madde işaretlerine bakınız) üçü oldukça benzerdir, ancak ince farklarla - :( kısa ve hatırlaması kolay)

  • özellik çıkarımı ve özellik mühendisliği : ham verilerin modellemeye uygun özelliklere dönüştürülmesi;

  • özellik dönüşümü : algoritmanın doğruluğunu artırmak için verilerin dönüştürülmesi;

  • özellik seçimi : gereksiz özellikleri kaldırma.

Sadece bir Örnek eklemek için,

Özellik Çıkarma ve Mühendislik (onlardan bir şey çıkarabiliriz)

  • Metinler (ngramlar, word2vec, tf-idf vb.)
  • Görüntüler (CNN'ler, metinler, soru-cevap)
  • Mekansal veriler (enlem, boylam vb.)
  • Tarih ve saat (gün, ay, hafta, yıl, yuvarlanma temelli)
  • Zaman serileri, web vb.
  • Boyutsal Küçültme Teknikleri (PCA, SVD, Öz-Yüzler vb.)
  • Belki Kümelemeyi de kullanabiliriz (DBSCAN vb.)
  • .....(Ve bircok digerleri)

Özellik dönüşümleri (mantıklı hale getirmek için dönüştürmek)

  • Normalizasyon ve değişen dağılım (Ölçeklendirme)
  • Etkileşimler
  • Eksik değerlerin doldurulması (medyan doldurma vb.)
  • .....(Ve bircok digerleri)

Özellik seçimi (modelinizi seçilen özellikler üzerine inşa ederek)

  • İstatistiksel yaklaşımlar
  • Modelleme ile seçim
  • Izgara araması
  • Çapraz doğrulama
  • .....(Ve bircok digerleri)

Bu yardımcı olur umarım...

Başkaları tarafından paylaşılan bağlantılara bakın. Onlar oldukça güzel ...


bunun için +1 cevaplamanın güzel bir yolu.
Toros91

Bu topluluğa şeref ..
Aditya

1
Doğru adamım, Ekim 2017'den beri üye oldum. Bir çok şey öğrendim. Umarım senin için de aynı olur. Cevaplarınızı okuyordum, onlar iyi. SO, SO üzerinde yaşadığınız için üzgünüm. Her şeyi göremedim ama Neil Slater'in iyi dediği gibi, sonuna kadar serinliğini korudun. Aynen böyle devam! Hala gitmemiz gereken uzun bir yol var. :)
Toros91

Bunların işlenme sırası nedir? Veri temizleme ve veri bölmeye ek olarak. 5 adımdan hangisi ilk adımdır?
technazi

Veri bölme, verilerin Modelleme için gönderilmeye hazır olduğundan emin olduğunuzda en sonunda yapılır ... Ve yukarıda bahsedilen şeyler için böyle bir sipariş yoktur, çünkü bunlar birkaç kez çakışır (özellik çıkarma, özellik mühendisliği, Özellik dönüşümü.) Ancak Özellik Seçimi, modellerinizi metrik veya Çapraz Doğrulama veya eşdeğer bir şey için bir doğrulama veri kümesinde (performansını ölçmek için) eşdeğer bir şey kullanmanız şartıyla verileri doğrulama olarak trene böldükten sonra yapılır. sütunları bırakarak imp implsimpimp bakın
Aditya

5

Aditya'ın dediği gibi, bazen birbiriyle karıştırılan 3 özellikle ilgili terim vardır. Her birine özet açıklama vermeye çalışacağım:

  • Özellik çıkarma: Doğrudan analiz edilmesi zor olan / doğrudan karşılaştırılamayan bir formattaki verilerden özelliklerin oluşturulması (örn. Görüntüler, zaman serileri, vb.) Zaman serisi örneğinde, bazı basit özellikler örnek: zaman serilerinin uzunluğu, nokta, ortalama değer, std, vb.
  • Özellik dönüşümü: Eski özellikleri temel alan yeni özellikler oluşturmak için mevcut özelliklerin dönüşümü . Boyutsal azaltma için çok yaygın olarak kullanılan bir teknik, ilk değişkenler kümesine dayalı olarak bir dizi doğrusal olarak bağıntısız değişken üretmek için bazı dik dönüşümleri kullanan Temel Bileşen Analizi'dir (pca).
  • Özellik seçimi: Bir dizi mevcut özellikten, hedef değişken üzerinde "önemi" / etkisi en yüksek özelliklerin seçimi. Bu çeşitli tekniklerle yapılabilir: örneğin Doğrusal Regresyon, Karar Ağaçları, "önem" ağırlıklarının hesaplanması (örn. Fisher skoru, ReliefF)

Elde etmek istediğiniz tek şey mevcut bir veri kümesinde boyutsallık azalmasıysa, özellik dönüşümü veya özellik seçim yöntemlerini kullanabilirsiniz. Ancak "önemli" olarak tanımladığınız özelliklerin fiziksel yorumunu bilmeniz gerekiyorsa veya analiziniz için toplanması gereken veri miktarını sınırlamaya çalışıyorsanız (özellik dönüşümü için tüm başlangıç ​​özelliklerine ihtiyacınız vardır), yalnızca özellik seçimi kullanılabilir.

Özellik Seçimi ve Boyut Azaltma hakkında daha fazla bilgiyi aşağıdaki bağlantılarda bulabilirsiniz:


4

Bence bunlar 2 farklı şey,

Özellik Seçimi ile başlayalım :

Bu teknik, hedef değişkenin çoğunu açıklayan özellikleri seçmek için kullanılır (hedef değişkenle korelasyonu vardır) Bu test, model verilere uygulanmadan hemen önce yapılır.

Daha iyi açıklamak için bir örnek verelim: 10 özellik ve 1 hedef değişkeni var, 9 özellik hedef değişkenin% 90'ını açıklıyor ve 10 özellik birlikte hedef değişkenin% 91'ini açıklıyor. Yani 1 değişken çok fazla fark yaratmıyor, bu yüzden modellemeden önce bunu kaldırma eğilimindesiniz (iş için de özneldir). Ben de Predictor Önemi olarak adlandırılabilir.

Şimdi Özellik Çıkarma hakkında konuşalım ,

Denetimsiz Öğrenme, görüntülerde konturların çıkarılması, bir metinden Bi gram çıkarılması, konuşulan metnin kaydedilmesinden fonemlerin çıkarılmasında kullanılır. Veri sözlüğü yok gibi veriler hakkında hiçbir şey bilmediğinizde, verilerin anlaşılabilir formatta olmadığı anlamına gelen çok fazla özellik. Ardından, verilerin çoğunu açıklayan bazı özellikleri elde etmek için bu tekniği uygulamayı deneyin. Özellik çıkarma, boyutların azaltılması sürecinde bazı bilgilerin kaybolduğu için, genellikle geri döndürülemeyen özelliklerin dönüştürülmesini içerir.

Özellikleri ayıklamak için verilen verilere Özellik Çıkarma uygulayabilir ve ardından iyi sonuçlarla iyi bir model oluşturmaya yardımcı olabilecek altkümeyi seçmek için Hedef Değişken ile ilgili Özellik Seçimi uygulayabilirsiniz.

daha iyi anlaşılması için bu Link-1 , Link-2'den geçebilirsiniz .

bunları R, Python, SPSS'de uygulayabiliriz.

daha fazla açıklamaya ihtiyacınız olursa bana bildirin.


3

İkisi çok farklı: Özellik Seçimi gerçekten boyutları azaltır, ancak özellik çıkarma diğer özelliklerden hesaplanan boyutları ekler.

Panel veya zaman serisi verileri için, genellikle datetime değişkeni vardır ve biri bağımlı değişkeni tarihte kendisi ileride oluşmayacak şekilde eğitmek istemez. Bu nedenle datetime: özellik ortadan kaldırmayı ortadan kaldırmalısınız.

Öte yandan, hafta içi / hafta sonu günü çok alakalı olabilir, bu nedenle datetime: özellik ayıklamasından hafta içi durumunu hesaplamamız gerekir.


0

Bir Makine Öğrenimi projesinin başarısının kritik bir parçası, üzerinde çalışılacak iyi bir dizi özellik ile geliyor. Özellik mühendisliği adı verilen bu süreç şunları içerir:

• Özellik seçimi: mevcut özellikler arasında eğitim almak için en kullanışlı özellikleri seçmenizi sağlar.
• Özellik çıkarma: daha kullanışlı bir özellik oluşturmak için mevcut özellikleri birleştirmek (daha önce gördüğümüz gibi boyutsallık azaltma algoritmaları yardımcı olabilir).
• Yeni veri toplayarak yeni özellikler oluşturma

Alıntı: "SciKit-Learn, Keras & Tensorflow - Aurelien Geron ile Makine Öğreniminde Bir Eller"

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.