Verilerimin ayrık veya sürekli olup olmadığını nasıl test edebilirim?


11

Bana öyle geliyor ki, doğru istatistiksel araçları seçmek için öncelikle veri setimin ayrık mı yoksa sürekli mi olduğunu tanımlamalıyım.

Verilerin R ile ayrık veya sürekli olup olmadığını nasıl test edebileceğimi öğretebilir misiniz?


Bir regresyon tipi modelinde belirli değişkenlerin sürekli mi yoksa kategorik (ayrık) tahmin ediciler olarak mı ekleneceği anlamına mı geliyor?
Nick Sabbe

Verilerin nasıl toplandığı ve değişkenlerin nasıl kaydedildiği size bu konuda bazı ipuçları verecektir; buna ek olarak, verilerinizi sürekli veya ayrık olarak modellemek isteyip istemediğinize bağlı olabilir (bkz. örneğin Likert öğeleri ve ayrık ölçek analizi ile ilgili soru). İlgisiz nokta: Hesabınızı herkes için bir kez kaydedebilmeniz ve belki de cevapları kabul etmeyi veya önceki sorularınızı gözden geçirmeyi düşünmeniz iyi olur.
chl

qqnorm yapın ve noktalar diyagonal boyunca ise veriler süreklidir (eğer yatay çizgilerdeyse, ayrıktır)
user222362

Yanıtlar:


14

Hemen bu kararı almayı düşünebilmemin tek nedeni, bir değişkenin bir regresyona sürekli veya kategorik olarak dahil edilmesine karar vermektir.

Öncelikle, bazen başka seçeneğiniz yoktur: karakter değişkenleri veya faktörler (data.frame'i sağlayan birisinin sizin için karar verdiği durumlarda) açık bir şekilde kategoriktir.

Bu bizi sayısal değişkenlerle terk ediyor. Değişkenlerin tamsayı olup olmadığını kontrol etmek cazip gelebilir, ancak bu iyi bir kriter değildir: aşağıdaki ilk kod satırına bakın ( x1): bunlar yalnızca ve değerlerinin 1000 : tamsayı değil, bariz bir kategorik değişken gibi görünüyor. Bazıları için yapabileceğiniz şey , verilerinizde kaç farklı değerin olduğunu kontrol etmektir, ancak bunun için kullanabileceğiniz herhangi bir eşik öznel olacaktır, sanırım:2.51.52.5x

x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative

Sadece% 5 benzersiz değerlere sahip bir değişkenin güvenli bir şekilde ayrık olarak adlandırılabileceğini söyleyebilirim (ancak, belirtildiği gibi: bu özneldir). Ancak, bu onu modelinize kategorik bir değişken olarak dahil etmek için iyi bir aday değildir: 1000000 gözleminiz ve% 5 benzersiz değerleriniz varsa, yine de 50000 'kategori' bırakır: bunu kategorik olarak eklerseniz, Cehennemde çok fazla özgürlük harcayacaksınız.

Bu çağrı daha öznel ve sanırım büyük ölçüde örnek boyutu ve seçim yöntemine bağlıdır. Daha fazla bağlam olmadan, burada yönergeler vermek zordur.

Yani şimdi muhtemelen bazı değişkenleri sahip olabilir Modelinizdeki kategorik olarak ekleyin. Ama yapmalısın ? Bu soru bir olasılık oranı testi ile (yine de hedefinize bağlı olsa da) cevaplanabilir: Değişkenin kategorik olduğu model, değişkenin sürekli eş değişken olarak bulunduğu modelin bir üst modelidir. Bunu görmek için, bir değişken üzerinde bir lineer regresyon hayal xüç değeri tutun 0, 1ve 2. Bir modelin takılması: burada bir kukla değişken göstergesidir ( ise 1'e eşittir ) daha esnektir bir modeli takma şekli x i x = = i E [ y ] = β 0 + β 1 x E [ y ] = β 0 + β 1 x 1 + 2 β 1 x 2

E[y]=β0+β11x1+β12x2
xix==i
E[y]=β0+β1x
çünkü sonuncusu
E[y]=β0+β1x1+2β1x2

Süper / alt model yapısı ile, bir olasılık oranı testi yaparak verilerde daha karmaşık yapının gerekli olduğuna dair kanıt olup olmadığını öğrenebilirsiniz : Günlük maksimum olabilirlik farkının -2 katı (tipik olarak R'de sapma olarak gösterilir) df ile bir dağılımını izleyin = parametre sayısındaki fark (yukarıdaki örnekte: 4 parametre - 3 parametre).χ2


3
+1 Garip bir sorunun harika bir cevapla nasıl geliştirileceğine dair güzel bir örnek.

1
Aslında, herhangi bir sürekli takdir edilebilir, böylece histogramlar sadece pratikte nasıl yapıldığını gösterir. Muhtemelen sayım verilerini (tamsayı değeri verileri) kategorik olarak karıştırdım ... ilk tahminim sadece veri noktaları (ve kategorilere gerçek değerler atanan çılgın araştırmacılar) değil, ayrık ve sürekli dağılımlar hakkındaydı, bu yüzden ... yine de mayını sildim , çünkü sorunu çözdüğünü sanmıyorum (+1)
Dmitrij Celov

1
Görünüşe göre @Dmitrij cevabını kaldırdı, lütfen bunu yansıtmak için cevabınızı tekrar yazabilir misiniz? Bu harika bir cevaptır (+1), bu nedenle mevcut olmayan içeriğe yapılan referans biraz ortaya çıkıyor.
mpiktas
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.