Bağımlı değişkenin bir "kesilmesi" olduğunda modelleme


12

Kullandığım terminolojilerden herhangi biri yanlışsa önceden özür dileriz. Herhangi bir düzeltmeyi memnuniyetle karşılarım. "Kesim" olarak tanımladığım şey farklı bir isme sahipse, bana bildirin ve soruyu güncelleyebilirim.

İlgilendiğim durum şu: bağımsız değişkenleriniz var ve tek bağımlı değişken . Bunu belirsiz bırakacağım, ancak bu değişkenler için iyi bir regresyon modeli almanın nispeten basit olacağını varsayalım. yxy

Bununla birlikte, oluşturmayı amaçladığınız model bağımsız değişkenler ve bağımlı değişken ; burada a , y aralığında sabit bir değerdir . İçermez için Eşit, veri erişiminiz olan y sadece, w .xw=min(y,a)ayyw

Bunun (gerçekçi olmayan) bir örneği, insanların emeklilik maaşlarını kaç yıl boyunca tahsil edeceğini modellemeye çalışıyorsanız olurdu. Bu durumda, x cinsiyet, kilo, haftada egzersiz saatleri, vb. Gibi ilgili bilgiler olabilir. 'Temel' değişken y yaşam beklentisidir. Bununla birlikte, modelinizde erişebileceğiniz ve tahmin etmeye çalışacağınız değişken, w=min(0,yr) ; burada r, emeklilik yaşıdır (sabitliği varsayarsak).

Regresyon modellemesinde bununla başa çıkmak için iyi bir yaklaşım var mı?


1
Emin değilim, ancak hayatta kalma analizinin bazı varyasyonları ile ulaşılabilir gibi görünebilir. 1) Sansür içerir 2) En azından örneğinizde zaman içerir. Ancak sağ sansürden ziyade sol sansür olurdu (bu daha yaygındır). Bana katılıyorsanız, hayatta kalma etiketini ekleyebilir ve herhangi birinin üzerine atlayıp atlamadığını görebilirsiniz.
Peter Flom - Monica'yı eski durumuna döndürün

4
@Peter Bana doğru sansürlenmiş görünüyor. Sansürün hangi tarafta meydana geldiği çok az içe aktarılır, çünkü bağımlı değişkeni yok ederek sağ ve sol sansür arasında geçiş yapar.
whuber

@whuber haklı olduğunu düşünüyorum. Ancak, dediğin gibi, sansür yeterince kolay değişebilir.
Peter Flom - Monica'yı eski durumuna döndürün

Emeklilik örneği, bir sayım veri modeli gerektiriyor gibi görünüyor (eğer tüm yıllara yuvarlamak istiyorsanız ve analizi çalıştırdığınız zaman herkes öldüğü sürece). Gizli değişken yaklaşım, zamanın negatif olamayacağı için bununla birlikte gergin görünmektedir.
Dimitriy V. Masterov

Yanıtlar:


14

Bu tür bir model, disipline ve konu alanına bağlı olarak birkaç isimle geçer. Ortak isimleri Sansürlü Bağımlı Değişkenler, Kesilmiş Bağımlı Değişkenler, Sınırlı Bağımlı Değişkenler, Hayatta Kalma Analizi, Tobit ve Sansürlü Regresyon'dur. Muhtemelen başka isimler de bırakıyorum.

öğesinin gözlendiği yerde önerdiğiniz "doğru sansürleme" denir, çünkü gerçek satırda çok sağdaki değerleri sansürlenir - ve bunun yerine sansür noktasını görüyoruz, .min{yi,a}yia

Böyle verilerle başa çıkmanın bir yolu, gizli değişkenlerin kullanılmasıdır (ve temel olarak önerdiğiniz şey budur). İşte devam etmenin bir yolu:

yi=xiβ+εiwi=min{yi,a}εiN(0,σ2) iid

Ardından, bunu maksimum olasılıkla analiz edebilirsiniz. meydana geldiği gözlemler , olasılık fonksiyonuna katkıda bulunur ve sansürlemenin olmadığı gözlemler katkıda bulunur olasılık işlevine . Standart normalin CDF'si ve standart normalin yoğunluğu . Yani, olasılık işlevi şöyle görünür:P{yi>a}=Φ(1σxiβa)1σϕ((yixiβ)/σ)Φϕ

L(β,σ)=i  censoredΦ(1σxiβa)i  censored1σϕ((yixiβ)/σ)

Bunu en üst düzeye çıkararak ve tahmin edersiniz . Standart hataları olağan maksimum olasılık standart hataları olarak alırsınız.βσ

Tahmin edebileceğiniz gibi, bu birçok kişi arasında sadece bir yaklaşımdır.


1
+1 ML çözümünün çalışan bir örneği stats.stackexchange.com/questions/49443 adresinde görünür .
whuber

@whuber Bu güzel bir fuar.
Bill
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.