Yanıt değişkeni, yıllık bir olayın (genellikle) gerçekleştiği yılın günü olan bir regresyon modeli


13

Bu özel durumda, bir gölün dontuğu güne değiniyorum. Bu "buzlanma" tarihi yalnızca yılda bir kez olur, ancak bazen hiç olmaz (kış sıcaksa). Yani bir yılda göl 20. günde (20 Ocak) donabilir ve başka bir yıl hiç donmayabilir.

Amaç, buzlanma tarihinin sürücülerini bulmaktır.

Tahminler her yıl sonbahar / kış hava sıcaklığı gibi şeyler olacaktır. Yıl, uzun vadeli doğrusal eğilim için bir belirleyici olabilir.

1) "yılın günü" tamsayı makul bir yanıt değişkeni mi (değilse, nedir?)?

2) Gölün asla donmadığı yıllar nasıl idare edilmelidir?

Düzenle:

Burada görgü kurallarını bilmiyorum, ama aldığım önerilerin sonucunu yayınlayacağımı düşündüm. İşte kağıt, açık erişim . Kullanılan yaklaşım hakkında iyi geribildirim aldım, teşekkürler @pedrofigueira ve @cboettig. Elbette hatalar benimdir.


ne tür veri kümeniz var? Yılın tüm günlerinde önlemler?
Donbeo

@ Donbeo, buzda kalma yılda bir kez gerçekleşir, bu nedenle yanıt değişkeni yıllık bir çözünürlüktedir. Diğer veriler de yıllık sıklıkta gelir, ancak bazı durumlarda daha yüksek frekanslı verilere dönüştürülebilir.
00'de rbatt

Buzlanma tarihini hangi amaçla değerlendirmek istiyorsunuz? Bunu soruyorum çünkü istatistiksel modelleme asla doğru ya da yanlış değil, yararlı ya da işe yaramaz. Bu nedenle, istatistiksel sonuçların kullanımı önemlidir, ayrıca hedef değişkenin hiç kullanılıp kullanılmadığı da anlaşılır. Örneğin göl, Ekim ayında zaten ince bir buz kalkanı ile donar, ancak aynı hafta erir ve bu kış bir daha asla donmazsa ne olur? Belki de kar lastikleri gibi bir şeyi ne zaman kullanmaya başlayacağınızı tahmin etmek için analizinizi yaparsınız? Bu, 2. sorunuza faydalı bir cevap verebilir.
Horst Grünbusch

Düşünceleriniz için teşekkürler, @ HorstGrünbusch. İklimdeki değişikliklerin buzu nasıl etkilediğini bilmek istiyorum, çünkü bir su sistemine bir kapak koymak çok şey (gaz değişimi, ışık, vb.) Etkiler. Mevcut tek buz verisi bu buzlanma tarihleri ​​(kalınlık değil, vb.).
Haziran'da rbatt

Yanıtlar:


4

Bence "yılın günü" çok değişkenli bir regresyona cevap değişkeni olarak düşünülebilir. Gölün asla donmadığı yıllarla başa çıkmak için, donma gününün, örneğin buz içeriğinin erimeye başladığı (veya tamamen erimeye başladığı) güne karşılık gelen gözlemlenebilir bir alt sınırdan daha büyük olduğunu düşünürdüm. çok muhafazakar olun). Teorik olarak bundan sonra donmalı veya bundan sonra donabilir, ama bilmiyoruz. Bu şekilde , en son gözlemlenebilir tarihten daha geç olmasına izin verildiyse , donma gününün bunlara nasıl bağlı olduğunu anlamak için farklı parametrelerde topladığınız verileri kullanabilirsiniz . Daha sonra bir Tobit modeli kullanabilirsinizaynı anda dondurma günlerini ("normal" veri noktalarına karşılık gelen) ve alt limitleri (sınırlara ve dolayısıyla sansürlenmiş bir regresyona karşılık gelen) işlemek.

Ölçülen alt limitleri analize doğru bir şekilde dahil etmek için, bağımlı değişkenin alt limit değerinde bir kesime sahip olduğu sansürlü bir regresyon modeli kullanabilirsiniz. Yukarıda belirtilen Tobit modeli bu durum için uygundur; o gözlemlenemeyen (latent) bağımlı değişken varlığını varsayar dondurma bugüne kadar bizim durumumuzda tekabül kış süresiz uzatıldı eğer. Gözlemlenebilir bağımlı değişken y ı (tarih dondurma üzerinde ölçülen alt sınır örneğin) daha sonra alınan bir alt sınır yokluğunda gizli değişkenin eşit olacak şekilde L ı ve aksi alt limite eşityben*ybenLben

yben={yben*benf¯Lben(yaniyben*<Lben)Lbenbenfyben*Lben

Tobit modelinin gözlem yoluyla gözlem sansürünü işlemek için uygulanması, formun bir günlük olabilirlik işlevi ile sonuçlanır.

L=Σbenyben*<Lbenln[φ(yben-Xbenjβjσ)/σ]+Σbenyben*Lbenln[Φ(Lben-Xbenjβjσ)]

burada ve Φ ( . ) standart normal dağılımın olasılık ve kümülatif yoğunluk fonksiyonlarını gösterir. İndeks i gözlemler üzerinde ve j bağımsız değişkenler üzerinde çalışır . Doğrusal regresyonun çözümü , log olabilirlik fonksiyonunu en üst düzeye çıkaran β j (kesişim dahil) parametreler kümesidir .φ(.)Φ(.)benjβj


3
1365011365

1
Her yıl bağımsız bir deney olarak değerlendirilebiliyorsa alt sınır kavramının anlamını koruduğunu, yani deneyin hafızası yoksa ve bir yıldaki dondurma tarihinin, tarihinden itibaren tamamen bağımsız olduğu varsayılabileceğini iddia ediyorum. önceki; yalnızca söz konusu yılın parametrelerine bağlı olmalıdır. Eğer durum buysa, o zaman, en iyi şekilde, değişken dairesel değildir.
pedrofigueira

1
Evet, bazı durumlarda bu tür geçici teknikler işe yarayabilir. (A) olay her yıl her zaman meydana geldiğinde ve (b) olaylar tahmin edilebilir bir tarihte sıkıca dağıldığında, yılın kökenini uygun şekilde seçerek iyi olacaksınız. Ancak daha büyük miktarlarda dağılım ile (muhtemelen burada durum böyle) - veya olayın tamamen yok olabileceği en sert durumlarda - gerçekten dairesel ("yönlü") istatistik yöntemlerini uygulamanız gerekir. BTW, seri korelasyon veya bağımsızlık tamamen ayrı bir kaygıdır.
whuber

2
Bence üst limit yıl olarak olabildiğince kesin olarak tanımlanmalıdır; eğer bunu yapabilirse, Tobit analizi daha anlayışlı hale gelir. Alt sınır olarak önermekteyim (donma daha önce olabilir, ancak gözlemlenmedi / gözlemlenebilir değildi). Belki bu, suyun donması için gerekli olan (P, T) 'ye bakarak ve sabit bir basınç varsayarak, yılın son yerel minimasını veya benzerlerini seçerek yapılabilir. Bu noktadaki sorunun istatistiksel bir sorudan daha fiziksel bir hale geldiğine inanıyorum (ama yine de çok ilginç).
pedrofigueira

2
@rbatt Bence bu cevap mantıklı. Başlangıç ​​tarihi isteğe bağlıdır, başka bir tarihten başlayabilir veya negatif sayılar kullanabilirsiniz; Sorun görmüyorum. Dairesellık, yılın gününe göre numaralanarak kendi kendine ilgilenir.
cboettig

1

Yılın günü mantıklı bir öngörücü değişkendir ve bunun için @pedrofigueira'nın önerdiği gibi davranmanın mantıklı olduğunu düşünüyorum.

Diğer öngörücü değişkenler için, zamanı nasıl temsil ettiğiniz konusunda dikkatli olmanız gerekebilir. Örneğin, gündüz hava sıcaklıklarınız olduğunu düşünün - hava sıcaklığını buzlu bir günün öngörüsü olarak nasıl modellersiniz? Aynı yılın örneklerini karşılaştırmanın yeterli olduğunu düşünmüyorum.

Böyle bir analizde, verilerin makul bir üretici modeli (veya modelleri) olabileceğini düşündüğünüzü yazmanın yardımcı olduğunu düşünüyorum (bazı fiziklerin bir rehber olarak mevcut olabileceği yerler). Örneğin mantıklı bir model, donma altındaki gün sayısını entegre etmek olabilir ve bu integral bir eşiği geçtiğinde (örneğin gölün termal kütlesi ile ilgili), buzlanma meydana gelir. Böyle bir modelden sonra neyin makul bir yaklaşım olduğunu ve neyin olmadığını sorabilirsiniz.

Örneğin, yordayıcı olarak yılın günü bu modele sadece yılın günü kadar önemli bir sıcaklık göstergesidir. Bu nedenle, sadece yılın gününü bilerek, buzlu eşik değerine karşılık gelen ortalama bir yıllık güne sahip olabilir, belki de interannual sıcaklık değişimlerinden kaynaklanan bazı normal dağılımlar vardır ve bu nedenle gün içinde bir eğilim arar. yıl tamamen haklı.

Ancak, hava sıcaklığı gibi diğer değişkenleri gün geçtikçe biliyorsanız, muhtemelen biraz daha karmaşık bir modelle daha doğrudan uğraşıyorsunuz. Yıllık değerleri (minimumlar? Anlamına mı geliyor?) Buz gününün bir öngörücüsü olarak değişkenten daha fazla kullanıyorsanız, makul görünmektedir (yukarıdaki ile aynı argüman ile).


Fiziği işaret etmek için +1. İstatistiksel sonucu mantıklı bir şekilde açıklayamıyorsanız, önemli görünse bile sahte olabilir.
Horst Grünbusch

Sadece açık olmak gerekirse, buzlanmaya yönelik yılın günü tepki değişkendir ... "tahmin etmeye" çalıştığım şey budur (cevabınızda bunu birkaç yerde 'öngörücü' olarak adlandırıyorsunuz). Yılları donma olmadan ele almak için bir öneriniz var mı (aşağıdaki Tobit önerisi)?
14'te

1
@rbatt, karışıklık için özür dilerim. En basit model, geçmişte buzdolabının belirleyici olarak gerçekleştiği yılın gününü kullanan 1D'dir. Ancak buzlanma tarihinde eğilimleri tespit etmek istiyorsanız, tahmin etmek istediğiniz şey olarak Yılın Günü yerine tam DATE tarihine sahipsiniz, çünkü örneğin 2020 için tahmin 2050 için
olandan

0

Bu sorun için iki yanıt değişkenine ihtiyacınız vardır. Gölün donup donmayacağını gösteren bir Boolean yanıtı ve yılın gününü veren bir tamsayı yanıtı, göstergenin doğru olmasına bağlıdır. Gölün donduğu yıllarda, hem Boolean hem de tamsayı gözlenir. Gölün donmadığı yıllarda, Boole gözlenir ve tamsayı gözlenmez. Boole için bir lojistik regresyon kullanabilirsiniz. Yılın günündeki regresyon sıradan bir doğrusal regresyon olabilir.

Belirli bir zaman diliminde olası donma günlerini art arda saydığınız sürece yılın günün dairesel doğası bir sorun olmamalıdır. Numaralandırmaya nereden başlayacağınızı merak ediyorsanız, öngörücülerin ölçüldüğü günü öneririm. Modelin nedensel etkileri temsil etmesini istiyorsanız, olası tüm donmalardan önce tüm öngörücülerin ölçülmüş olması gerekir.

Yılın gününün tamsayı ve sınırlı doğasını idare etmek için bir takdir modeli kullanabilir. Yani, aşağıdaki şekilde bir gözlem oluşturan gerçek bir gizli değer vardır: değer sınırlar içindeyse, gözlem en yakın tam sayıya yuvarlanmış gizli değere eşittir, aksi takdirde değer sınırlara kesilir. Gizli değerin kendisi, öngörücülerin ve artı gürültünün doğrusal bir fonksiyonu olarak modellenebilir.


Yaklaşımın öncülünü anlıyorum, ancak nasıl uygulanacağından emin değilim. Verileri nasıl düzenler ve boole / tarih aday adaylarının etkisini nasıl tahmin edebilirim? R'de çalışıyorum
rbatt

Verileri, bir sütunun Boole ve diğerinin tarih olduğu bir veri çerçevesine yerleştirin. Sonra kullanın: fit1 = glm (donma ~ x, çerçeve, aile = "binom") fit2 = lm (tarih ~ x, çerçeve)
Tom Minka 29:14

Maalesef, "fit2 = lm (tarih ~ x, çerçeve, alt küme = Boolean == DOĞRU)" anlayabilir miyim?
Sergio

Bunlar iki ayrı model olurdu. Yanıtın "tarih" olduğu modelde, suyun asla donmadığı yıllarla ne yapmalıyım? Sadece o yılları kaldırırsam, sonuçları önyargılıyorum (veya gözlemlenen yanıt aralığımı ciddi şekilde azaltıyorum) çünkü yanıtın en uç gözlemlerini seçici olarak kaldırıyorum (yani, asla donma en aşırı buzlanma tarihidir). Suyun asla donmadığı yıllar, bu sürücülerin buzlanma tarihinde etkileri hakkında bize bir şeyler söylemelidir. Her iki modeldeki bilgilerin birleştirilmesi gerektiği anlaşılıyor.
14'te

Donmayı bir boole değişkeni olarak ele almaktan rahatsız oluyorum çünkü altta yatan süreç şüphesiz bundan daha süreklidir.
cboettig

0

Sahip olduğunuz, hayatta kalma analizi olarak da adlandırılan olay zamanı verileri. Bu benim alanım değil, bu yüzden burada ayrıntılı bir cevap vermiyorum. "Olay zamanı verileri" veya "hayatta kalma analizi" için googling size çok sayıda isabet verecektir!

İyi bir başlangıç ​​noktası, Venables / Ripley'de hayatta kalma analizi hakkındaki bölüm (13) olabilir: MASS veya John D. Kalbfleisch, Ross L. Prentice (auth.) Adlı klasik "Arıza Süresi Verilerinin İstatistiksel Analizi

DÜZENLEME, GENİŞLETİLMİŞ CEVAP

Hayatta kalma analizine alternatif olarak, bunu sıralı lojistik regresyon ile tahmin edebilirsiniz. Örneğin, ilk donma tarihi örneğinizde, "şu anda veya önce donmuş" durumunu, 0 (donma yok), 1 (donma) verdiğiniz bazı tarihleri ​​tanımlayın. Yılları donmadan güzel bir şekilde ağırlayan, sadece sıfır yanıt vektörüne sahip olursunuz. Seçtiğiniz tarihler, örneğin,

1:08   15:08 1:09 15:09 1:10 15:10 1:11 15:11 1:12  15:12  1:01  15:01
and the actual date of first freezing was  17:11, then your observed vector will be
0       0    0    0     0    0     0    0      1     1     1      1

ve genel olarak, tüm tepki vektörleri bir sıfır bloğuna ve ardından bir blok bloğuna sahip olacaktır. Ardından, her bir tarih için tahmini donma olasılığı elde ederek sıralı lojistik regresyon ile kullanabilirsiniz. Bu eğriyi çizmek, bir hayatta kalma eğrisi için bir tahmin verecektir (bu bağlamda hayatta kalma, "henüz donmamış" olur).

EDIT

Ayrıca, her yıl nehir dontuğu için (neredeyse) verilerinizi tekrarlayan olaylar olarak da görebilirsiniz. Cevabımı buraya bakın: Psikiyatrik geri dönüşlerin anlamlı yordayıcılarını bulma

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.