Günün saati kategorik bir değişken midir?


24

Değerin 0, 1, 2, ..., 23 kategorik bir değişken olabileceği "günün saati" mi? Hayır deme konusunda cazip olurum, çünkü 5, örneğin 4 ya da 6'ya 3 ya da 7 olduğundan daha yakındır.

Öte yandan, 23 ile 0 arasında bir süreksizlik var.

Genelde kategorik olarak mı kabul edilir? 'Hour' öğesinin, tahmin etmeye çalıştığım değişkenin değil, bağımsız değişkenlerden biri olduğunu unutmayın.


7
Ne yapmaya çalışıyorsun? Bir model takıyorsanız, saat bir değişken veya saatin cevabı mı, örneğin?
gung - Monica'yı yeniden yerleştirme

2
Yedeklemeniz için yeterince serbestlik dereceniz varsa (yani kategorik olarak kabul edilirseniz), her saat için yapay bir değişken kullanabilir veya almadıysanız ilk birkaç Fourier terimini kullanabilirsiniz. Genel olarak, yanıtla potansiyel bir ilişkiyi en iyi şekilde nasıl temsil edebileceğimizi düşünün - dükkanlar açıkken işaretleyen tek bir kukla değişken.
Scortchi - Eski Monica

Saat gibi bir şeye en iyi neyin işe yaradığına bağlı olarak "kategorik" veya "sayısal" olarak bakılabilir. Genel olarak doğru ya da yanlış cevap yoktur - en iyi olana bağlıdır. Farklı şeyler denemeyi ve sizin durumunuzda en iyi olanı görmenizi öneririm.
yuvarlak kare

Yanıtlar:


29

Neyi modellemek istediğinize bağlı olarak, saatler (ve mevsimler gibi diğer birçok özellik) aslında sıralı döngüsel değişkenlerdir. Mevsimler halinde, bunların kategorik olarak az çok düşünüldüğünü düşünebilir ve saatlerde onları da sürekli olarak modelleyebilirsiniz.

Ancak, modelinizde saatlerin sizin için döngüselliği sağlamayan bir biçimde kullanılması verimli olmayacaktır. Bunun yerine bir tür dönüşümle gelmeye çalışın. Saatleri kullanarak bir trigonometrik yaklaşımı kullanabilirsiniz.

xhr = sin(2*pi*hr/24)
yhr = cos(2*pi*hr/24)

Böylece onun yerine xhrve yhrmodelleme yaparsınız . Örneğin bu yazıya bakınız: Dairesel regresyonun doğrusal regresyonda kullanılması .


2
(+1) Mevsimler ile saatler arasındaki farkı açıklayabilir misiniz?
Scortchi - Eski Monica

Hmm, mevsimlerin gündüz saatlerinde konuşurken sabah, öğlen ve akşam gibi benzer bir anlamı olduğunu düşünüyorum. Sadece belirsiz bilgi mevcut olduğunda ve çözünürlük zayıf olduğunda (mevsimdeki 4 değer gibi) kategorik olduğu ve kodlama için boş değişkenlerin kullanılması makul gözüktüğü zaman. :-)
Drey

1
Bence asıl mesele şu ki, çünkü trigonomi kullanan sadece 4 mevsim var. kategorik bir gösterime kıyasla yaklaşım sadece 1 derece serbestlikten - günün saatini 21 derece serbest bıraktığınızdan. (Onları ayırmanız gerekmiyorsa, o zaman xhr = sin(4*pi*hr/24), yhr = cos(4*pi*hr/24)vb., Yeterli gözlemle, günün saatlerini kategorik olarak değerlendirebileceğiniz noktaya kadar eklenebilir.)
Scortchi - Reinstate Monica


1

Günün saati en iyi kategorik bir değişken olarak gösterilmez, çünkü değerlerin doğal bir sıralaması vardır. Örneğin saç rengi kategoriktir, çünkü kategorilerin sıralanmasının bir anlamı yoktur - {kırmızı, kahverengi, sarışın} {sarışın, kahverengi, kırmızı} kadar geçerlidir. Öte yandan, günün saatleri doğal bir sıraya sahiptir - sabah 9'dan sabah 10'a veya akşam 8'den 6'ya yakındır. En iyi kesikli bir sıra değişkeni olarak düşünülür. Saat 13: 00’dan sonra 11: 00’i takip ettiği ve 01:


Bazı kategorik değişkenlerin değerlerine doğal bir düzen yok mu?
dsaxton,

Evet, ama bu durumda sıradan olarak daha iyi tanımlanırlar. Sıralı değişkenler, doğal dizilimi olan kategorik değişkenlerdir.
Nükleer Wang,

1
Peki, regresyon modelinde yordayıcı olarak ayrık, sıralı, döngüsel bir değişkeni nasıl temsil ederdiniz?
Scortchi - Monica'yı yeniden kurun

0

Teorik olarak, değişkeni nasıl biçimlendirdiğinize bağlıdır, yani "sürekli" (tek bir katsayı ile modellenmiş) veya kategorik (günün "saat" başına bir katsayı) olabilir. Ayrıca, örneğin parça bazında fonksiyonların bir karışımını da yapabilirsiniz.

Pratik olarak, 0 ve 23 aslında günün aynı "saati" olduğundan, günün gruplandırma dönemlerini daha büyük, daha homojen ve güvenilir gruplara ayırırdım. Örneğin, 8 saatlik artışlarla - 20: 00-4: 00, 16: 00-12: 00 ve 12-8: 00.


4
0 ve 23 farklı saatlerdir. 0 ve 24 aynı saat olur.
Paul Reiners,

BTW, Gung'un yorumuna göre günün saatinin modele bağımlı değişken değil, bağımsız bir değişken olduğunu varsayıyorum. Demek istediğim şu ki, 0 ve 23, gerçekte o kadar da farklı değil - 23: 59'da gerçekleşen modellenen olayınız ile 0:01 arasındaki istatistiksel bir fark olduğunu söyleyebilir misiniz?
Frank H.

1
Hangi bilgiyi çöpe attığından emin değiliz. Bkz sürekli belirleyicisi değişkeni kesiliyor yararı nedir? .
Scortchi - Eski Monica

@Scortchi - gönderide yazdığı gibi, biniciliğin bilgileri "atması" için sürekli bir ilişki olduğunu varsayıyorsunuz. Fakat durum böyle değilse, o zaman binicilik daha uygun bir dönüşümdür. Bu da OP ile ilgili olmayan, başlangıç ​​için yeterli veriye sahip olmadığını varsayıyor.
Frank H.

Bir tahminci ile cevap arasındaki ilişkiye kısıtlamalar getirmek, başlı başına kötü bir şey değildir - bu yazıdaki ilk ortaya çıkan kişi olarak, kaç gözlemin mevcut olduğu önemli bir husustur - ama bu dayatılan olan Günün saatinin gösterimi - sekizden onbeşinci saate kadar, on altıda bir atlama veya düşüşle, vb. - genel olarak uygun bir yaklaşım için garip bir öneri gibi görünüyor.
Scortchi - Eski Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.