Neye mal olursa olsun:
her ikisi de rpart
ve ctree
tekrarlı olarak , bir değişken grubundaki değerlere bağlı olarak bağımlı değişkenin tek değişkenli bölümlerini gerçekleştirin . rpart
ve ilgili algoritmalar genellikle mevcut ortak değişkenleri seçmek için bilgi önlemlerini ( Gini katsayısı gibi ) kullanır.
ctree
, yazarlarına göre (bkz. chl'ın yorumları), aşağıdaki değişken seçim önyargısından rpart
(ve ilgili yöntemlerden) kaçınır : Birçok olası bölünmeye veya birçok eksik değere sahip değişkenleri seçme eğilimindedirler. Diğerlerinden farklı olarak, ctree
bir bilgi ölçütünü maksimize eden değişkeni (örneğin Gini katsayısı) seçmek yerine değişkenleri seçmek için bir anlamlılık testi prosedürü kullanılır.
Önemlilik testi, ya da daha iyisi: algoritmanın her başlangıcında hesaplanan çok anlamlılık testleri (eş değişken seç - bölün - tekrar seç), permütasyon testleridir , yani "boş hipotez altında test istatistiğinin dağılımı hesaplanarak elde edilir." Gözlemlenen veri noktalarındaki etiketlerin yeniden düzenlenmesi altında test istatistiklerinin tüm olası değerleri. " (wikipedia makalesinden).
Şimdi test istatistiği için: bağımlı değişken ve ortak değişkenlerin dönüşümlerinden (kimliği dahil, yani dönüşüm değil) hesaplanır. Her iki değişken için herhangi bir dönüşümden birini seçebilirsiniz. DV için (Bağımlı Değişken), dönüşüme sorduğunuz etki işlevi denir .
Örnekler ( kağıttan alınmış ):
- Eğer hem DV hem de değişkenler sayısal ise, kimlik dönüşümlerini seçebilir ve eş değişken ile DV değerlerinin tüm olası permütasyonları arasındaki korelasyonları hesaplayabilirsiniz. Daha sonra p- değerini bu permütasyon testinden hesaplar ve diğer değişkenler için p -değerleri ile karşılaştırırsınız .
- Eğer hem DV hem de değişkenler nominal ise (sırasız kategorik), test istatistiği bir beklenmedik durum tablosundan hesaplanır.
- Bu genel programdaki her türlü dönüşümden (kimlik dönüşümü dahil) kolayca başka test istatistiklerini oluşturabilirsiniz.
permütasyon testi için küçük bir örnek R
:
require(gtools)
dv <- c(1,3,4,5,5); covariate <- c(2,2,5,4,5)
# all possible permutations of dv, length(120):
perms <- permutations(5,5,dv,set=FALSE)
# now calculate correlations for all perms with covariate:
cors <- apply(perms, 1, function(perms_row) cor(perms_row,covariate))
cors <- cors[order(cors)]
# now p-value: compare cor(dv,covariate) with the
# sorted vector of all permutation correlations
length(cors[cors>=cor(dv,covariate)])/length(cors)
# result: [1] 0.1, i.e. a p-value of .1
# note that this is a one-sided test
Şimdi varsayalım ki bir grup değişken var, sadece yukarıdaki gibi değil. Ardından yukarıdaki şemada olduğu gibi her değişken için p -değerlerini hesaplayın ve en küçük p- değerine sahip olanı seçin . Doğrudan korelasyonlar yerine p -değerleri hesaplamak istiyorsunuz , çünkü farklı türlerin değişkenleri olabilir (örneğin, sayısal ve kategorik).
Bir ortak değişken seçtikten sonra, şimdi yine tüm olası bölmeleri (veya genellikle bölünmeden önce DV'nin en az sayıdaki elemanını isteyerek bir şekilde sınırlı sayıda tüm olası bölmelerin sayısını) araştırın ve permütasyona dayalı bir testi tekrar değerlendirin.
ctree
DV ve ortak değişkenler her ikisi için olası dönüşümler bir dizi ile geliyor (için yardıma bakın Transformations
içinde party
paketin).
Genel olarak, temel fark ctree
, istatistiksel teoriye dayanan eş değişkenli bir seçim şeması kullanan (yani, permütasyona dayalı önem testleriyle yapılan seçim) kullanan ve dolayısıyla potansiyel bir önyargıdan kaçınıyor rpart
gibi görünmektedir; örneğin koşullu çıkarım ağaçları, Rastgele Ormanlarda temel öğrenenler olarak kullanılabilir.
Bu alabildiğim kadarıyla. Daha fazla bilgi için makaleleri okumanız gerekiyor. Herhangi bir istatistiksel analiz yapmak istediğinizde ne yaptığınızı gerçekten bilmenizi kesinlikle tavsiye ederim.