Chi kare testi ne tür özellik seçimi için kullanılabilir?


11
  1. Burada başkalarının yaygın olarak denetimli öğrenmede özellik seçimi wrt sonucu için ki kare testi kullanmak için ne yaptıklarını soruyorum. Doğru anlarsam, her özellik ile sonuç arasındaki bağımsızlığı test eder ve her özellik için testler arasındaki p değerlerini karşılaştırırlar mı?

  2. In http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,

    Pearson ki-kare testi, setler arasında gözlemlenen herhangi bir farkın tesadüfen ortaya çıkma olasılığını değerlendirmek için kategorik veri setlerine uygulanan istatistiksel bir testtir .

    ...

    Bir bağımsızlık testi, bir beklenmedik durum tablosunda ifade edilen iki değişken üzerindeki eşleştirilmiş gözlemlerin birbirinden bağımsız olup olmadığını değerlendirir (örneğin, bir kişinin uyruğunun yanıtla ilgili olup olmadığını görmek için farklı milletlerden insanlardan gelen yoklama tepkileri).

    Öyleyse bağımsızlığı testle test edilen iki değişken kategorik mi yoksa ayrık mı (kategoriklerin yanı sıra sıralamaya izin vererek), ancak sürekli değil mi?

  3. Gönderen http://scikit-learn.org/stable/modules/feature_selection.html , onlar

    Bir gerçekleştirmek χ2 için testi iris verisetine Weka'daki sadece iki iyi özelliklerini almak için.

    İçinde iris veri kümesi , tüm özellikleri değerli rakamsal ve süreklidir ve sonuç sınıfı etiketleri (kategorik) 'dir. Chi kare bağımsızlık testi sürekli özellikler için nasıl geçerlidir?

    Veri kümesine ki kare bağımsızlık testi uygulamak için, önce sürekli özellikleri ayrı ayrı özelliklere dönüştürüyor muyuz (önce özelliklerin sürekli alanlarını bölmelere ayırmak ve daha sonra özellikleri kutulardaki özellik değerlerinin oluşumuyla değiştirmektir) )?

    Birkaç bölmedeki tekrarlamalar çok terimli bir özellik oluşturur (her bölmede oluşur veya oluşmaz), bu nedenle bunlara chi kare bağımsızlık testi uygulanabilir, değil mi?

    Sanırım bu arada , herhangi bir özellik ve sonuçlara ki kare bağımsızlık testi uygulayabilir miyiz ?

    Sonuç kısmı için, sadece sınıflandırma için değil, aynı zamanda regresyon için, ki kare bağımsızlık testi ile, sürekli sonucu ikiye ayırarak özellikleri seçebiliriz, değil mi?

  4. Scikit öğrenme sitesi de

    Negatif olmayan her özellik ile sınıf arasındaki ki kare istatistiklerini hesaplayın .

    Bu puan, X'ten test ki-kare istatistiği için en yüksek değerlere sahip n_features özelliklerini seçmek için kullanılabilir; bunlar, boolean veya frekanslar (örn., Belge sınıflandırmasındaki terim sayıları) gibi negatif olmayan özellikler içermelidir . sınıflar.

    Test neden negatif olmayan özellikler gerektiriyor?

    Özelliklerin işaretleri yoksa ancak kategorik veya ayrıksa, test yine de bunlar için geçerli olabilir mi? (Bkz. Bölüm 1)

    Özellikler negatifse, her zaman alanlarını depolayabilir ve bunların yerine geçebiliriz (tıpkı iris veri kümesine testi uygulamak için tahmin ettiğim gibi, bkz. Bölüm 2), değil mi?

Not: Sanırım Scikit Learn genel ilkelere uyar ve ben de bunu istiyorum. Değilse, o zaman hala iyi.

Yanıtlar:


2

Sanırım karışıklığınızın bir kısmı, bir karenin hangi değişken türlerini karşılaştırabileceği ile ilgili. Wikipedia bunun hakkında şunları söylüyor:

Bir örnekte gözlemlenen belirli olayların frekans dağılımının belirli bir teorik dağılımla tutarlı olduğunu belirten bir sıfır hipotezini test eder.

Böylece negatif sayılar olarak da bilinen sayımlar olarak da bilinen frekans dağılımlarını karşılaştırır . Farklı frekans dağılımları kategorik değişken tarafından tanımlanır; yani kategorik bir değişkenin değerlerinin her biri için diğer değişkenlerle karşılaştırılabilecek bir frekans dağılımı olmalıdır.

Frekans dağılımını elde etmenin birkaç yolu vardır. Birinci kategorik değişkeni olan ortak oluşumların ayrı bir frekans dağılımı elde etmek için sayıldığı ikinci bir kategorik değişken olabilir. Başka bir seçenek, kategorik bir değişkenin farklı değerleri için (çoklu) bir sayısal değişken kullanmaktır; (örneğin) sayısal değişkenin değerlerini toplayabilir. Aslında, kategorik değişkenler ikilileştirilmişse, birincisi bir sonrakinin belirli bir versiyonudur.

Misal

Örnek olarak şu değişken gruplarına bakın:

x = ['mouse', 'cat', 'mouse', 'cat']
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

Kategorik değişkenler xve yortak oluşumları sayarak karşılaştırılabilir ve ki-kare testi ile olan budur:

                 'mouse'    'cat'
'wild'              1         0
'domesticated'      1         2

Ancak, 'x' değerlerini ikiye katlayabilir ve aşağıdaki değişkenleri alabilirsiniz:

x1 = [1, 0, 1, 0]
x2 = [0, 1, 0, 1]
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

Değerleri saymak artık değerine karşılık gelen değerleri toplamaya eşittir z.

                 x1    x2
'wild'           1     0
'domesticated'   1     2

Gördüğünüz gibi, tek bir kategorik değişken ( x) veya birden çok sayısal değişken ( x1ve x2) olasılık tablosunda eşit olarak temsil edilir. Böylece, ki-kare testleri, kategorik bir değişkene (sklearn içindeki etiket) başka bir kategorik değişken veya çoklu sayısal değişkenlerle (sklearn'deki özellikler) uygulanabilir.


Chi_square özellik seçimi yalnızca negatif olmayan özellikler (freq, count, ect) için kullanılabiliyorsa, bu, negatif değerlere sahip bir özelliğin olduğu bir durum için ne anlama gelir? Özelliği dönüştürün veya başka bir özellik seçim yöntemi mi kullanıyorsunuz? Iris Dataset hakkında yeni bir araştırma yaptığımızı ve her gün sepal uzunluktaki değişikliği ölçen bir özelliğimiz olduğunu varsayalım. Sonunda ve negatif değerler olurdu. Bitki solgunlaşacak ve küçülecek ve uzunluk olumsuz yönde değişecektir. Belki de bu bitkinin ne kadar hızlı olduğunu ve ne kadar hızlı bir şeyle sınıflandırdığını deniyoruz.
Arash Howaida

1
Ki-kare değerlerin oranına (yani frekans dağılımı) dayanmaktadır. Bu, (binarized) özellik değerleri toplanarak uygulanır. Yani toplamın bir kısmının bir anlamı olmalı. Negatif değerlerde durum böyle değildir.
Pieter
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.