Özellik seçimi için rastgele permütasyon testi


9

Lojistik regresyon bağlamında özellik seçimi için permütasyon analizi konusunda kafam karıştı.
Rastgele permütasyon testinin net bir açıklamasını verebilir misiniz ve özellik seçimi için nasıl uygulanır? Muhtemelen tam algoritma ve örneklerle.

Son olarak, Kement veya LAR gibi diğer büzülme yöntemleriyle nasıl karşılaştırılır?


5
Örneğin, tasarım matrisinin tek bir sütununun girişlerine izin verilen, yanıtı ve diğer ortak değişkenleri sabit tutan gibi bir şey mi kastediyorsunuz? Kullandığınız belirli bir referansınız varsa, listelemek faydalı olabilir.
kardinal

Bence bu bağlantı citeseerx.ist.psu.edu/viewdoc/… doğru tekniği ifade ediyor. Şu anda bana bu yöntemden bahseden öğretim görevlisi ile iletişim kurmaya çalışıyorum ...
Ugo

Onunla tekrar iletişim kurmayı başaramadım (Donald Geman)
Ugo

2
sorunuzda açıklığa kavuşturmak isteyebileceğiniz belirsiz noktalar var. Bağlantılı makalede algoritmanın oldukça açık bir açıklaması var. Bu algoritma hakkında özel bir şey sormak ister misiniz? Marjinal hesaplayarak özellik seçimi yapma fikri mip-açıklamak istediğiniz değerler? Ayrıca, makalede Tanım 2'yi sorgulamalısınız . Bu, çalışma varsayımı olabilen desteklenmeyen bir iddia, ancak küçük marjinalp- değerler genel olarak anlamlı değildir. LAR, bu arada, doğrusal regresyon yapıyor ve gerçekten ikili yanıtlar için değil.
NRH

Yanıtlar:


10

(Şimdi fazla zamanım yok, bu yüzden kısaca cevaplayacağım ve sonra genişleteceğim)

Diyelim ki bir ikili sınıflandırma problemi düşünüyoruz ve m sınıf 1 örnekleri ve nsınıf 2 örnekleri. Özellik seçimi için permütasyon testi, her özelliğe ayrı ayrı bakar. Bir test istatistiğiθbilgi kazancı veya araçlar arasındaki normalleştirilmiş fark gibi özellik için hesaplanır. Özellik için veriler daha sonra rasgele izin verilir ve biri boyutta olmak üzere iki kümeye bölünürm ve biri n. Test istatistiğiθp daha sonra bu yeni bölüme göre hesaplanır p. Sorunun hesaplama karmaşıklığına bağlı olarak, bu daha sonra özelliğin tüm olası bölümleri üzerinde iki sıraya göre tekrarlanır.m ve nveya bunların rastgele bir alt kümesini içerir.

Artık, θp, gözlemlenen test istatistiği olan p-değerini hesaplıyoruz θözelliğin rastgele bir bölümünden ortaya çıktı. Boş hipotez, her sınıftan örneklerin aynı temel dağılımdan gelmesidir (özellik ilgisizdir).

Bu işlem tüm özellikler üzerinde tekrarlanır ve daha sonra sınıflandırma için kullanılan özelliklerin alt kümesi iki şekilde seçilebilir:

  • N en düşük p değerine sahip özellikler
  • P değerine sahip tüm özellikler<ϵ
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.