Bir regresyonda tarih değişkeni kullanmak mantıklı mı?

R'de tarih biçimindeki değişkenleri kullanmaya alışkın değilim. Doğrusal regresyon modelinde açıklayıcı değişken olarak bir tarih değişkeni eklemenin mümkün olup olmadığını merak ediyorum. Mümkünse, katsayıyı nasıl yorumlayabiliriz? Bir günün sonuç değişkeni üzerindeki etkisi mi?

Yapmaya çalıştığım bir örnekle özlemimi görün .

r regression time-series

— PAC
kaynak

Bir tarih bir sayıya dönüştürülebilir.

benim izlenimim R otomatik olarak yapar

— PAC

Ancak ortaya çıkan sayılar genellikle çok büyüktür ve bu da sorunlara yol açabilir. Kendinizi dönüştürmek daha iyidir, örneğin ölçümlerin başlangıcından bu yana zaman adımlarına (saat veya gün veya ...). Bu aynı zamanda kesmenin yorumlanmasını da kolaylaştırır.

— Roland

Faktöre dönüştürün (gün sabit efektleri elde etmek için) veya sayısal ve yeniden ölçeklendirmeye dönüştürün, böylece başlangıçtan bu yana günlerin doğrusal bir etkisini elde etmek için ilk günün değeri 0 olur.

— Thomas

Bu gerçekten iyi bir soru. Bence bu hem istatistiksel bir soru hem de bir programlama sorusu. Programlama sorusu, R'nin bir regresyon modelinde açıklayıcı değişken olarak tarihleri koyduğumuzda R'nin tarihlerle nasıl başa çıktığıdır ve istatistiksel soru katsayının tam yorumlanmasıyla ilgilidir.

— PAC

Stack Overflow ile ilgili daha önceki yorumlara dayanarak:

Evet, mantıklı. Burada genel soruyu ele alıyorum ve R uzmanlarının önemli detayları doldurmasına izin vermekten mutluluk duyuyorum. Benim görüşüme göre, bu artık Çapraz Doğrulanmış olduğu için, posterin favori yazılımına çok dar bir şekilde odaklanmamalıyız, ancak bu, benzer düşünen insanlar için önemlidir.

Sayısal değilse, herhangi bir yazılımdaki tarihler, yıllar, günler, milisaniyeler veya belirli bir zaman diliminden beri ifade edilen sayısal değişkenlere dönüştürülebilir. Her bir tarihle ilişkili katsayı, tarihin birimleri ne olursa olsun payda birimlerine sahiptir. Pay birimleri, yanıt veya bağımlı değişkenin ünitelerine bağlıdır. (Kimlik olmayan bağlantı işlevleri bunu doğal olarak zorlaştırır.)

Bununla birlikte, tarihler çalışma için anlamlı bir kökene kaydırıldığında genellikle en mantıklıdır. Genellikle, ancak zorunlu olarak, köken, çalışma süresi içinde veya ona çok yakın bir tarih olmalıdır.

Belki de en basit durum, bir tarih değişkenindeki yıllar içindeki doğrusal regresyondur. İşte bazılarının gerilemesiresponse üzerine date2000 veya 2010 gibi tarihler olarak ifade değeridir bir kesenini ima responseböyle yıl olduğunu bir kenara takvimsel detay ayarlama yılda 0. böyle bir kesişme saçma sapan büyük pozitif veya negatif olan genellikle mantıklı ancak yorum ve sunumda dikkat dağıtıcı (iyi bilgilendirilmiş kitlelere bile).

Lisans öğrencileriyle çalışmanın gerçek bir örneğinde, belirli bir alandaki yıllık siklon sayısı tarihle birlikte hafifçe artıyordu ve doğrusal bir eğilim makul bir ilk bıçaklamaya benziyordu. Regresyonun kesilmesi büyük bir negatif sayıdır, bu da her zamanki gibi 0 yılına bir ekstrapolasyon olduğu anlaşılıncaya kadar çok şaşkınlığa neden olmuştur. Kökeni 2000'e kaydırmak daha iyi sonuçlar verdi. (Aslında, olumlu tahminler sağlayan bir Poisson regresyonu daha da iyiydi, ama bu farklı bir hikaye.)

Üzerinde date - 2000 ya da her ne olursa olsun iyi bir fikirdir. Bir çalışmanın temel detayları genellikle iyi bir temel tarihi, yani yeni bir kökeni gösterir.

Diğer modellerin ve / veya diğer öngörücülerin kullanılması bu prensibi zayıflatmaz; sadece gizliyor.

Ayrıca, düşünülmesi en kolay tarihler kullanılarak sonuçları grafiğe dökmek de iyi bir fikirdir. Bunlar orijinal tarihler olabilir; düşünmek en kolay olanı kullanmakla aynı prensip olduğu için bu bir çelişki değildir.

Küçük bir düşünce, ilkenin çok daha genel olduğunu gösterir. 0 yaşına ilişkin mantıklı ancak garip tahminlerden kaçınmak için genellikle (20 yaş) veya daha fazlasıyla daha iyiyiz.

EDIT 21 Mart 2019 (orijinal 29 Temmuz 2013): Bu argümanlar Cox, NJ 2015'te bir Stata bağlamında tartışılmıştır. Stata Journal 15: 574-587 buraya bakın

EDIT 2 ayrıca 4 Aralık 2015 @whuber yorumlarda da sayısal hassasiyetin önemli konusunu gündeme getiriyor. Genellikle zaman birimleri iyidir ve ortaya çıkan tarihler veya tarih saatleri çok büyük olabilir, bu da karelerin toplamı için önemli sorunları gündeme getirir ve bu böyle devam eder. R'den bir örnek ortaya koyuyor. Buna, Stata'daki tarih zamanlarının 1960 başından beri milisaniye olduğunu ekleyebiliriz (örneğin). Bu sorun, tarihlere özgü değildir, çünkü genellikle çok büyük sayılarla ortaya çıkabilir. ya da çok küçük, ama işaretlemeye de değer.

— Nick Cox
kaynak

Ekonometrik olarak, tarih genellikle ölçülemeyen bir değişken için bir vekil olarak veya kolayca elde edemediğiniz veriler için kullanılır. Bu, marka bilinirliği arttıkça yeni bir şirketten belirli bir ürünün satışlarındaki artış oranında görülebilir. Büyük olasılıkla marka tanınırlığı için bir metriğiniz olmadığından, tarih proxy olarak kullanılabilir. Bu, diğer regresörlerinize "daha gerçekçi" katsayılar verir. ** TL: DR **, bağımsız değişkeninizi etkileyecek olan ölçülmeyen faktörlerin tarihiyle ilişkilendirilebileceğini düşünmeden regresyonunuzdaki tarihi kullanmaya dikkat etmelisiniz

— scott

İyi tavsiye. Takvim tarihinin (bir işlevi) tipik olarak zaman içinde başka bir şekilde yakalanması zor olan bir vekil olduğunu düşünürüm, bu yüzden nokta ekonometrinin ötesine uzanır.

— Nick Cox

Ben herkes gibi sinüslerden ve kosinüslerden hoşlanıyorum, ama disiplinler arasındaki problemlerden hangi örnekleme bu karara yol açıyor?

— Nick Cox

İlgileniyorsanız , mevsimsellik konusundaki çalışmalarımın bazılarına bağlantılar için stata-journal.com/sjsearch.html?choice=keyword&q=season adresine bakın .

— Nick Cox

R

1

$1$

Yukarıda belirtildiği gibi, uygun ölçeklendirme ile tarihler büyük regresörlerdir. Zaman etkilerinin tipik ortak değişkenlerden bile doğrusal olma olasılığı daha düşüktür, bu yüzden neredeyse her zaman zaman içinde regresyon spline'larını kullanıyorum. Bazı karmaşık zaman eğilimleri sığdırmak için birçok düğüm (ör. 7 veya daha fazla) gerektirir. Kısıtlı kübik spline'lar (doğal splinelar) gözlemlenen sürelerin sonundan daha güvenli lineer ekstrapolasyon sağlar, ancak ekstrapolasyon nadiren tamamen güvenlidir.

— Frank Harrell
kaynak