Sınırlı hedef değişken nasıl modellenir?


18

5 değişken var ve 0 ila 70 aralığında olması gereken hedef değişkenimi tahmin etmeye çalışıyorum.

Bu bilgiyi hedefimi daha iyi modellemek için nasıl kullanabilirim?

Yanıtlar:


21

Mutlaka hiçbir şey yapmanız gerekmez. Tahmincinin iyi çalışması mümkündür. Hatta aralık, muhtemelen aralığına tahminler (yani, kullanım sıkma dış değerlere belirleyici tahmininde ise max(0,min(70,y^)) yerine, yy^ ) de yapar. Bunun işe yarayıp yaramadığını görmek için modeli çapraz doğrulayın.

Bununla birlikte, kısıtlı aralık bağımlı değişken ( y ) ve bağımsız değişkenler ( xi ) arasında doğrusal olmayan bir ilişki olasılığını arttırır . Bunun bazı ek göstergeleri şunları içerir:

  • Kalıntı değerleri daha büyük bir farklılaşma zaman y aralığının her iki ucunda da artıklara varyasyonuna göre, kendi aralığının ortasında yer almaktadır.y^

  • Spesifik doğrusal olmayan ilişkilerin teorik nedenleri.

  • Model yanlış spesifikasyonunun kanıtı (olağan yollarla elde edilir).

  • İkinci dereceden veya yüksek mertebeden terimlerin .xi

Bu koşullardan herhangi birinin geçerli olması durumunda doğrusal olmayan bir yeniden ifadesini düşünün .y

Yeniden ifade etmenin birçok yolu vardır daha doğrusal ilişkileri oluşturmak için x i . Örneğin, [ 0 , 70 ] aralığında tanımlanan herhangi bir artan fonksiyon f , y f ( y ) - f ( 70 - y ) yoluyla simetrik bir artış fonksiyonu oluşturmak için "katlanabilir" . Eğer f argümanı yaklaştıkça rasgele büyük ve negatif olur 0 , katlanmış versiyonu f eşler [ 0 , 70 ]yxif[0,70]yf(y)f(70y)f0f[0,70]tüm gerçek sayılara. Bu tür fonksiyonlara örnek olarak logaritma ve herhangi bir negatif güç verilebilir. Logaritmanın kullanılması @ user603 tarafından önerilen "logit link" e eşdeğerdir. Başka bir yol, herhangi bir olasılık dağılımının ters CDF'si olmasını sağlamak ve f ( y ) = G ( y / 70 ) tanımlamaktır . Normal dağılımın kullanılması "probit" dönüşümünü verir.Gf(y)=G(y/70)

Dönüşüm ailelerini sömürmenin bir yolu deney yapmaktır: olası bir dönüşümü deneyin, dönüştürülen x i'ye karşı hızlı bir gerilemesini gerçekleştirin ve kalıntıları test edin: y'nin tahmin edilen değerlerinden bağımsız görünmelidirler (homoscedastik ve ilişkisiz) ). Bunlar bağımsız değişkenlerle doğrusal bir ilişkinin işaretleridir. Geri dönüşümü öngörülen değerlerin kalıntıları küçük olma eğilimindeyse de yardımcı olur . Bu, dönüşümün uyumu iyileştirdiğini gösterir. Aykırı değerlerin etkilerine direnmek için, yinelemeli olarak yeniden ağırlıklandırılmış en küçük kareler gibi sağlam regresyon yöntemlerini kullanın .yxiy


1
+1 Harika cevap! Neden "aralığının ortasında y_hat artık değerlerde daha büyük varyasyon, aralığın her iki ucundaki artıklarda varyasyon ile karşılaştırıldığında" üzerinde bir değer verebilir veya bir alıntı verebilir misiniz?
Andy McKenzie

1
@Andy Teoride, bu tür heteroscedastisitenin doğrusal olmama ile doğrudan bir bağlantısı yoktur, ancak pratikte genellikle bir varyans dengeleyici dönüşümün ilişkileri doğrusallaştırma eğiliminde olduğu görülmektedir. Sürekli olarak minimumdan (0 gibi) maksimuma (70 gibi) yükselen eğriler, bu aralığın ortasında bir yerde maksimum eğime sahip olur ve bu da genellikle daha büyük kalıntı varyansına neden olur. Bu yüzden artıkların ortada daha fazla ve uçlarda daha az sapma göstermesini bekleriz. Eğer durum böyle değilse , dönüştürülmemiş değişken ile doğrusal ilişkiler umabiliriz .
whuber

5

Değerlerinizin neden 0-70 aralığında sınırlandığını düşünmek önemlidir . Örneğin, 70 soruluk bir testte doğru cevapların sayısı ise, aşırı dağılmış binom regresyonu gibi "başarı sayısı" değişkenleri için modelleri düşünmelisiniz. Diğer nedenler sizi başka çözümlere götürebilir.


2

[0,1]

Düzenleme: Bir vektörü yeniden ölçeklendirdiğinizde (yani tüm öğeleri en büyük girdiye böldüğünüzde), kural olarak, bunu yapmadan önce, aykırı değerler için ekran (göz küreleri).

GÜNCELLEME

) (Glmrobrobustbase


3
Burada önerildiği gibi verilerin sıkıştırılması, bir regresyondaki eğimleri saptırır.
whuber

1
Ayrıca, verilerin gerçek aralığı bir priori olarak bilindiğinde, örnek miktarlara dayalı kelepçeleme anında değeri görmüyorum.
kardinal

@Kardinal Buradaki nokta, (örneğin) muhtemelen verilerin% 99'unun [0,1] 'de olduğu ve kalan değerlerin 70'e eşit olduğu: aralıktaki kompakt bir sınırlama, aykırı değerlerin bulunmamasını sağlamaz! Bu nedenle, önerilen yaklaşımdaki olası önyargı ile ilgili endişeme rağmen, @ user603 tarafından sunulan tavsiyenin ruhuna katılıyorum.
whuber

@whuber: Böyle bir ortamdaki eğilimim, bu sıkıştırma biçiminden ziyade aykırı değerlere karşı dirençli bir GLM kullanmak olacaktır. Ardından modelin "kesişme" ve "eğim" katsayısı üzerinden ayarlanmasına izin verin.
kardinal

@Cardinal Evet, bu geçerli bir çözüm. Umarım böyle bir GLM'nin kullanımına, artıkların (yaklaşık) doğrusallığını ve bağımsızlığını kontrol etmek için teşhis prosedürleri eşlik edecektir.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.