Ki-kare testi, iki değişkenin bağımlılığını belirlemek için istatistiksel bağımsızlık testidir. Tespit katsayısı R² ile benzerlikleri paylaşır. Bununla birlikte, ki-kare testi sadece kategorik veya nominal verilere uygulanabilirken, R² sadece sayısal verilere uygulanabilir.
Ki-kare tanımından, ki-kare tekniğinin özellik seçimindeki uygulamasını kolayca çıkarabiliriz. Bir hedef değişkeniniz (yani, sınıf etiketi) ve verilerin her bir örneğini tanımlayan diğer bazı özelliklerin (özellik değişkenleri) olduğunu varsayalım. Şimdi, her özellik değişkeni ile hedef değişken arasındaki ki-kare istatistiklerini hesaplıyoruz ve değişkenler ile hedef arasında bir ilişkinin varlığını gözlemliyoruz. Hedef değişken özellik değişkeninden bağımsızsa, bu özellik değişkenini atabiliriz. Bağımlıysa, özellik değişkeni çok önemlidir.
Matematiksel detaylar burada açıklanmaktadır: http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html
Sürekli değişkenler için ki-kare değişkenlerin “Binning” den sonra uygulanabilir.
FSelector'dan utanmadan kopyalanan R'de bir örnek
# Use HouseVotes84 data from mlbench package
library(mlbench)# For data
library(FSelector)#For method
data(HouseVotes84)
#Calculate the chi square statistics
weights<- chi.squared(Class~., HouseVotes84)
# Print the results
print(weights)
# Select top five variables
subset<- cutoff.k(weights, 5)
# Print the final formula that can be used in classification
f<- as.simple.formula(subset, "Class")
print(f)
Özellik seçiminde çok fazla ilgili değil, ancak aşağıdaki videoda chisquare ayrıntılı olarak tartışılıyor https://www.youtube.com/watch?time_continue=5&v=IrZOKSGShC8