Bana öyle geliyor ki, doğru istatistiksel araçları seçmek için öncelikle veri setimin ayrık mı yoksa sürekli mi olduğunu tanımlamalıyım.
Verilerin R ile ayrık veya sürekli olup olmadığını nasıl test edebileceğimi öğretebilir misiniz?
Bana öyle geliyor ki, doğru istatistiksel araçları seçmek için öncelikle veri setimin ayrık mı yoksa sürekli mi olduğunu tanımlamalıyım.
Verilerin R ile ayrık veya sürekli olup olmadığını nasıl test edebileceğimi öğretebilir misiniz?
Yanıtlar:
Hemen bu kararı almayı düşünebilmemin tek nedeni, bir değişkenin bir regresyona sürekli veya kategorik olarak dahil edilmesine karar vermektir.
Öncelikle, bazen başka seçeneğiniz yoktur: karakter değişkenleri veya faktörler (data.frame'i sağlayan birisinin sizin için karar verdiği durumlarda) açık bir şekilde kategoriktir.
Bu bizi sayısal değişkenlerle terk ediyor. Değişkenlerin tamsayı olup olmadığını kontrol etmek cazip gelebilir, ancak bu iyi bir kriter değildir: aşağıdaki ilk kod satırına bakın ( x1
): bunlar yalnızca ve değerlerinin 1000 : tamsayı değil, bariz bir kategorik değişken gibi görünüyor. Bazıları için yapabileceğiniz şey , verilerinizde kaç farklı değerin olduğunu kontrol etmektir, ancak bunun için kullanabileceğiniz herhangi bir eşik öznel olacaktır, sanırım:2.5x
x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative
Sadece% 5 benzersiz değerlere sahip bir değişkenin güvenli bir şekilde ayrık olarak adlandırılabileceğini söyleyebilirim (ancak, belirtildiği gibi: bu özneldir). Ancak, bu onu modelinize kategorik bir değişken olarak dahil etmek için iyi bir aday değildir: 1000000 gözleminiz ve% 5 benzersiz değerleriniz varsa, yine de 50000 'kategori' bırakır: bunu kategorik olarak eklerseniz, Cehennemde çok fazla özgürlük harcayacaksınız.
Bu çağrı daha öznel ve sanırım büyük ölçüde örnek boyutu ve seçim yöntemine bağlıdır. Daha fazla bağlam olmadan, burada yönergeler vermek zordur.
Yani şimdi muhtemelen bazı değişkenleri sahip olabilir Modelinizdeki kategorik olarak ekleyin. Ama yapmalısın ? Bu soru bir olasılık oranı testi ile (yine de hedefinize bağlı olsa da) cevaplanabilir: Değişkenin kategorik olduğu model, değişkenin sürekli eş değişken olarak bulunduğu modelin bir üst modelidir. Bunu görmek için, bir değişken üzerinde bir lineer regresyon hayal x
üç değeri tutun 0
, 1
ve 2
. Bir modelin takılması:
burada bir kukla değişken göstergesidir ( ise 1'e eşittir ) daha esnektir bir modeli takma şekli
x i x = = i E [ y ] = β 0 + β 1 x E [ y ] = β 0 + β 1 x 1 + 2 β 1 x 2
Süper / alt model yapısı ile, bir olasılık oranı testi yaparak verilerde daha karmaşık yapının gerekli olduğuna dair kanıt olup olmadığını öğrenebilirsiniz : Günlük maksimum olabilirlik farkının -2 katı (tipik olarak R'de sapma olarak gösterilir) df ile bir dağılımını izleyin = parametre sayısındaki fark (yukarıdaki örnekte: 4 parametre - 3 parametre).