Burada başkalarının yaygın olarak denetimli öğrenmede özellik seçimi wrt sonucu için ki kare testi kullanmak için ne yaptıklarını soruyorum. Doğru anlarsam, her özellik ile sonuç arasındaki bağımsızlığı test eder ve her özellik için testler arasındaki p değerlerini karşılaştırırlar mı?
In http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,
Pearson ki-kare testi, setler arasında gözlemlenen herhangi bir farkın tesadüfen ortaya çıkma olasılığını değerlendirmek için kategorik veri setlerine uygulanan istatistiksel bir testtir .
...
Bir bağımsızlık testi, bir beklenmedik durum tablosunda ifade edilen iki değişken üzerindeki eşleştirilmiş gözlemlerin birbirinden bağımsız olup olmadığını değerlendirir (örneğin, bir kişinin uyruğunun yanıtla ilgili olup olmadığını görmek için farklı milletlerden insanlardan gelen yoklama tepkileri).
Öyleyse bağımsızlığı testle test edilen iki değişken kategorik mi yoksa ayrık mı (kategoriklerin yanı sıra sıralamaya izin vererek), ancak sürekli değil mi?
Gönderen http://scikit-learn.org/stable/modules/feature_selection.html , onlar
Bir gerçekleştirmek için testi iris verisetine Weka'daki sadece iki iyi özelliklerini almak için.
İçinde iris veri kümesi , tüm özellikleri değerli rakamsal ve süreklidir ve sonuç sınıfı etiketleri (kategorik) 'dir. Chi kare bağımsızlık testi sürekli özellikler için nasıl geçerlidir?
Veri kümesine ki kare bağımsızlık testi uygulamak için, önce sürekli özellikleri ayrı ayrı özelliklere dönüştürüyor muyuz (önce özelliklerin sürekli alanlarını bölmelere ayırmak ve daha sonra özellikleri kutulardaki özellik değerlerinin oluşumuyla değiştirmektir) )?
Birkaç bölmedeki tekrarlamalar çok terimli bir özellik oluşturur (her bölmede oluşur veya oluşmaz), bu nedenle bunlara chi kare bağımsızlık testi uygulanabilir, değil mi?
Sanırım bu arada , herhangi bir özellik ve sonuçlara ki kare bağımsızlık testi uygulayabilir miyiz ?
Sonuç kısmı için, sadece sınıflandırma için değil, aynı zamanda regresyon için, ki kare bağımsızlık testi ile, sürekli sonucu ikiye ayırarak özellikleri seçebiliriz, değil mi?
-
Negatif olmayan her özellik ile sınıf arasındaki ki kare istatistiklerini hesaplayın .
Bu puan, X'ten test ki-kare istatistiği için en yüksek değerlere sahip n_features özelliklerini seçmek için kullanılabilir; bunlar, boolean veya frekanslar (örn., Belge sınıflandırmasındaki terim sayıları) gibi negatif olmayan özellikler içermelidir . sınıflar.
Test neden negatif olmayan özellikler gerektiriyor?
Özelliklerin işaretleri yoksa ancak kategorik veya ayrıksa, test yine de bunlar için geçerli olabilir mi? (Bkz. Bölüm 1)
Özellikler negatifse, her zaman alanlarını depolayabilir ve bunların yerine geçebiliriz (tıpkı iris veri kümesine testi uygulamak için tahmin ettiğim gibi, bkz. Bölüm 2), değil mi?
Not: Sanırım Scikit Learn genel ilkelere uyar ve ben de bunu istiyorum. Değilse, o zaman hala iyi.