PCA'yı özellik seçimi için bir araç olarak kullanırken temel fikir, değişkenlerinin katsayılarının ( yüklerin ) büyüklüğüne (en büyükten mutlak değerlere kadar) göre seçilmesidir . PCA'nın, orijinal değişkenlerin ilişkisiz doğrusal kombinasyonları (projeksiyonları) ile (daha fazla veya daha az ilişkili) değişkenleri değiştirmek istediğini hatırlayabilirsiniz . Eldeki sorun için en uygun nasıl seçileceğini görmezden gelelim. Bu ana bileşenler kendi açıklandığı varyans ile önemine göre sıralanmış, ve her bir değişken değerin, her bir bileşen için, çeşitli derecelerde ile katkıda bulunmaktadır. En büyük varyans kriterlerini kullanmak, ekstraksiyon özelliklerine benzer.k < p k kpk < pkk Burada asıl bileşen, orijinal değişkenler yerine yeni özellikler olarak kullanılır. Ancak, yalnızca ilk bileşeni tutmaya karar verebilir ve en yüksek mutlak katsayısına sahip değişkenlerini seçebiliriz ; sayı değişkenlerin sayısı oranına göre olabilir (örneğin, yalnızca üst% 10 tutmak değişken) ya da sabit bir kesme (örneğin, normalize edilmiş katsayılara bir eşik dikkate alınarak). Bu yaklaşım , cezai regresyonda (veya PLS regresyonunda) Kement operatörü ile bazı benzerlikler taşımaktadır . Ne değeri ne de tutulacak bileşen sayısı açık seçimler değildir.j pj < pjpj
PCA kullanımındaki problem (1) projeksiyonda orijinal değişkenlerin hepsinin ölçümlerinin düşük boyutlu uzaya kullanılması, (2) sadece doğrusal ilişkilerin göz önünde bulundurulması ve (3) PCA veya SVD tabanlı yöntemlerin kullanılmasıdır. tek değişkenli tarama yöntemleri (t-testi, korelasyon vb.) olduğundan, veri yapısının potansiyel çok değişkenli doğasını dikkate almayın (örneğin değişkenler arasında daha yüksek dereceli etkileşim).
Nokta 1 ile ilgili olarak, gen ekspresyonu çalışmalarında ' gen tıraşı ' için kullanılan yöntem gibi, temel özellik analizi veya aşamalı yöntem gibi daha ayrıntılı tarama yöntemleri önerilmiştir . Ayrıca, sonuçta ortaya çıkan değişken yüklere dayanarak boyut küçültme ve değişken seçimi yapmak için seyrek PCA kullanılabilir. 2. noktaya gelince, eğer çekirdek olmayan ilişkileri daha düşük boyutlu bir alana yerleştirmek gerekirse , çekirdek PCA'yı ( çekirdek numarasını kullanarak) kullanmak mümkündür . Karar ağaçları veya rastgele orman algoritması daha iyisi, muhtemelen 3. Noktayı çözebilir. İkincisi, Gini veya permitasyona dayalı değişken öneme sahip ölçümlerin türetilmesine izin verir .
Son nokta: Bir sınıflandırma veya regresyon modeli uygulamadan önce özellik seçimi yapmak istiyorsanız, tüm süreci çapraz olarak doğruladığınızdan emin olun (bkz . İstatistiksel Öğrenme Öğelerinin §7.10.2 veya Ambroise ve McLachlan, 2002 ).
R çözümüyle ilgileniyor görünüyorsanız, veri ön işleme ve değişken sınıflandırma veya regresyon bağlamında değişken seçim için birçok kullanışlı fonksiyon içeren caret paketine bir göz atmanızı tavsiye ederim .