Özellik seçimi için rastgele permütasyon testi

Lojistik regresyon bağlamında özellik seçimi için permütasyon analizi konusunda kafam karıştı.
Rastgele permütasyon testinin net bir açıklamasını verebilir misiniz ve özellik seçimi için nasıl uygulanır? Muhtemelen tam algoritma ve örneklerle.

Son olarak, Kement veya LAR gibi diğer büzülme yöntemleriyle nasıl karşılaştırılır?

— Ugo
kaynak

Örneğin, tasarım matrisinin tek bir sütununun girişlerine izin verilen, yanıtı ve diğer ortak değişkenleri sabit tutan gibi bir şey mi kastediyorsunuz? Kullandığınız belirli bir referansınız varsa, listelemek faydalı olabilir.

— kardinal

Bence bu bağlantı citeseerx.ist.psu.edu/viewdoc/… doğru tekniği ifade ediyor. Şu anda bana bu yöntemden bahseden öğretim görevlisi ile iletişim kurmaya çalışıyorum ...

— Ugo

Onunla tekrar iletişim kurmayı başaramadım (Donald Geman)

— Ugo

sorunuzda açıklığa kavuşturmak isteyebileceğiniz belirsiz noktalar var. Bağlantılı makalede algoritmanın oldukça açık bir açıklaması var. Bu algoritma hakkında özel bir şey sormak ister misiniz? Marjinal hesaplayarak özellik seçimi yapma fikri mi

p

$p$ -açıklamak istediğiniz değerler? Ayrıca, makalede Tanım 2'yi sorgulamalısınız . Bu, çalışma varsayımı olabilen desteklenmeyen bir iddia, ancak küçük marjinal

p

$p$ - değerler genel olarak anlamlı değildir. LAR, bu arada, doğrusal regresyon yapıyor ve gerçekten ikili yanıtlar için değil.

— NRH

(Şimdi fazla zamanım yok, bu yüzden kısaca cevaplayacağım ve sonra genişleteceğim)

Diyelim ki bir ikili sınıflandırma problemi düşünüyoruz ve $m$ sınıf 1 örnekleri ve $n$ sınıf 2 örnekleri. Özellik seçimi için permütasyon testi, her özelliğe ayrı ayrı bakar. Bir test istatistiği $\theta$ bilgi kazancı veya araçlar arasındaki normalleştirilmiş fark gibi özellik için hesaplanır. Özellik için veriler daha sonra rasgele izin verilir ve biri boyutta olmak üzere iki kümeye bölünür $m$ ve biri $n$ . Test istatistiği $\theta_p$ daha sonra bu yeni bölüme göre hesaplanır $p$ . Sorunun hesaplama karmaşıklığına bağlı olarak, bu daha sonra özelliğin tüm olası bölümleri üzerinde iki sıraya göre tekrarlanır. $m$ ve $n$ veya bunların rastgele bir alt kümesini içerir.

Artık, $\theta_p$ , gözlemlenen test istatistiği olan p-değerini hesaplıyoruz $\theta$ özelliğin rastgele bir bölümünden ortaya çıktı. Boş hipotez, her sınıftan örneklerin aynı temel dağılımdan gelmesidir (özellik ilgisizdir).

Bu işlem tüm özellikler üzerinde tekrarlanır ve daha sonra sınıflandırma için kullanılan özelliklerin alt kümesi iki şekilde seçilebilir:

$N$ en düşük p değerine sahip özellikler
P değerine sahip tüm özellikler $<\epsilon$

— benhamner
kaynak