A1. Boyutsallık azaltma nedir: Bir matristeki verileri düşünürseniz, satırların örnekleri ve sütunların nitelikler (veya özellikler) olduğu durumlarda, boyutsallık azaltma bu veri matrisini daha az sütun içeren yeni bir matrisle eşleştirir. Görselleştirme için, her matris sütunu (nitelik) özellik uzayında bir boyut olarak düşünürseniz, boyutsallık azaltma, örneklerin daha yüksek boyutlu alandan (daha fazla sütun) daha düşük boyutlu alt alana (daha az sütun) yansıtılmasıdır.
Bu dönüşüm için tipik amaç (1) işlemsel karmaşıklığı azaltırken veri matrisindeki bilgiyi korumak; (2) verideki farklı sınıfların ayrılabilirliğini geliştirmek.
A2. Özellik seçimi veya özellik çıkarımı olarak boyutsallık azaltma: Muhtemelen veri biliminin 'merhaba dünyası' olan her yerde bulunan Iris veri setini kullanacağım . Kısaca, Iris veri setinde 3 sınıf ve 4 özellik (sütun) vardır. İris veri kümesi boyutluluğunu 4'ten 2'ye düşürme görevi için özellik seçimini ve çıkartmayı göstereceğim.
Bu veri setinin çift yönlü eş varyansını Python'daki seaborn kütüphanesini kullanarak hesaplarım. Kodudur: sns.pairplot (iris, renk = "türler", belirteçler = [ "o", "s", "D"]) ı elde rakam
I olabilir seçmek sağlayan özelliklere (2 boyutlu) çiftini Bana Iris veri setindeki 3 sınıf (tür) arasındaki en büyük ayrılık. Bu bir özellik seçimi durumu olacaktır.
Sıradaki özellik çıkarım. Burada, Iris'in 4 boyutlu özellik uzayını, orijinal boşlukla aynı hizada eksen olmayan yeni bir 2 boyutlu alt alana yansıtıyorum. Bunlar yeni özellikler. Tipik olarak orijinal yüksek boyutlu uzayda dağılıma dayanırlar. En popüler yöntem, özdeğerleri orijinal uzayda hesaplayan Temel Bileşen Analizi'dir.
Açıkçası, Özvektörlere dayanan bir alt alana yalnızca doğrusal ve küresel bir projeksiyon kullanmakla sınırlı değiliz. Doğrusal olmayan projeksiyon yöntemlerini de kullanabiliriz. Burada sinir ağları kullanılarak lineer olmayan PCA örneğidir
Son örnekte özellikler (boyut) vardır ekstresinir ağları kullanarak orijinal 4 özellikten. Bu pca yöntemleri kodunu kullanarak iris veri seti için PCA'nın çeşitli lezzetlerini deneyebilirsiniz .
Özet: Özellik çıkarma yöntemleri, özellik seçimine göre performansta üstün gibi görünse de, seçim uygulama tarafından belirlenir. Özellik çıkarımından gelen özellikler tipik olarak eldeki göreve dayalı bir konu olabilecek ya da olmayabilecek fiziksel yorumu kaybeder. Örneğin, pahalı sensörlerle çok pahalı bir veri toplama görevi tasarlıyorsanız ve özellikleri (farklı sensörlerin sayısı) ekonomik hale getirmeniz gerekiyorsa, mevcut tüm sensörleri kullanarak küçük bir pilot örnek toplamak ve sonra da bunları seçmek isteyip istemediğinizi seçin . büyük veri toplama görevi için en bilgilendirici olanıdır.