Regresyon'u veri aralığının dışında yansıtmak için kullanma tamam mı? asla tamam değil mi? bazen tamam mı?


10

Veri aralığının dışında projeksiyon yapmak için regresyon kullanma hakkındaki düşünceleriniz nelerdir? Doğrusal veya güç modeli şekline uyduğundan eminseniz, model veri aralığının ötesinde yararlı olamaz mı? Mesela fiyat bazında hacimim var. İnandığım veri aralığı dışındaki fiyatlar için projeksiyon yapabilmeliyiz. Senin düşüncelerin?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92

1
Varsayımlarınızın veri aralığının dışında ne kadar iyi olduğuna bağlıdır. tahminygözlenmemiş için xilk etapta regresyon yapma nedeniniz.
Ben

3
Gerçekten, gerçekten, doğrusal ilişkinin tahmin edicilerin aralığının ötesinde devam ettiğinden bile x1,,xn senin örneğinde n gözlemlerde, yeni bir gözlem için öngörülen yanıtın varyansında bir terim vardır. x - viz (xx¯)2in(xix¯)2- bu seni endişelendirmeli.
Scortchi - Monica'yı eski durumuna döndürün

Ben aynı fikirdeyim, y'nin gözlemlenmeyen X'ler için tüm öngörüsü değil mi? Başka neden bir regresyon bile yapıyor? Belki de kendimi gözlemlenen veri aralığından uzaklaşmaya ne kadar izin verdiğime bir sınır koymak sorumlu olabilir. Kesinlikle% 10 güvende olur .. hayır?
Johnson Jason

Bu konuda en sevdiğim kıstas bmj.com/content/317/7155/409 .
Carlo Lazzaro

@ Ben, @ Johnson - Belki de bir kelime oyunu. Regresyon için başka bir kullanım alanı daha vardır. Tahmin etmek yerine açıklamak için kullanılabilir. Bence, özellikle sosyal bilimlerde bu, regresyonun büyük bir kullanımıdır. Ben (değişkenler) Bir etki sonucu B, bir regresyon yürütüyoruz, A katsayı (lar) ının% 95 güven aralığının 0 içermediğini buluyoruz ve A formunun bir ilişkisi B'ye neden olur. Bu arada, bu benim yaptığım bir şey değil!
meh

Yanıtlar:


13

Hemen hemen tüm cevaplar ve yorumlar ekstrapolasyon tehlikelerine karşı uyarır. Tahminin ihtiyatlı olup olmadığını görmenin daha resmi bir yolunu sunmak istiyorum. Yöntem, sütunlarının kapsadığı alandaki projeksiyon matrisine dayanır.Xki bu tam sıralamayı üstleniriz, yani sütun boşluğunun p boyutlu olduğunu varsayarız. Hatırlayacağınız gibi,

H=X(XTX)1X

Çapraz elementlerin H tatmin etmek 0<Hii<1, i=1,,n, bu arada idempotence'in bir sonucudur ve bunlar prediktör alanının sentroidinden uzaklıklar olarak yorumlanabilir. Bu doğrudur çünkü kaldıraçlar arasında bire bir yazışma vardırHiive kare Mahalanobis mesafeleri. Gizli ekstrapolasyonları tespit etmenin bir yolu, yeni gözlemin sentroidden ne kadar uzakta olduğunu görmek olacaktır, değil mi? Bu yeni diyagonal eleman hesaplanarak yapılabilir. Matris çarpımının bazı temel kurallarını hatırlatarak,

Hnew,new=xnewT(XTX)1xnew

Eğer Hnew,newçapraz elementlerin geri kalanından çok daha büyüktür, o zaman bu size yeni gözleminizin sentroidden oldukça uzakta olduğunu ve tahminin muhtemelen riskli bir hareket olduğunu söyler. Ne kadar büyük olduğuna karar vermek için biraz yargılama gerekir, bu nedenle teknik kusursuz değildir. Bununla birlikte güzelliği, basit bir saçılma planına bakamadığınızda, tüm boyutlarda çalışmasıdır.

Hangi yazılımı kullandığınızdan emin değilim ama neredeyse hepsi şapka matrisini doğru komutla döndürecek. Bu yüzden karar vermeden önce bir göz atmanı öneririm.


Aferin JohnK, bu çok yararlı. FYI Excel regresyonunu kullanıyorum.
Johnson Jason

9

Tahmin hatası, ortalamadan uzaklıkla karesel olarak artar. Regresyon denklemi ve sonuçları, hatanın boyutunu gözlemlenen veri aralığı üzerinden ölçmenize izin verir ve model yalnızca aynı aralıkta yeterlidir.

Bu aralığın dışında birçok şey olabilir. İlk olarak, tahmin hatasının artması nedeniyle tahmin daha da kötüleşir.

İkincisi, model tamamen bozulabilir. Bunu görmenin en kolay yolu, zamana ilişkin fiyatla ilgili bir model yansıtmaktır: Negatif zaman için tahmin yapamazsınız.

Üçüncüsü, doğrusal ilişki yetersiz olabilir. Örneğinizde, neredeyse kesinlikle gözlenen değerler aralığının çok dışında tahmin etmeye çalışırsanız çok belirgin hale gelen ölçek ekonomileri vardır.

Bu aynı etkinin mizahi bir örneği, Mark Twain'in eserlerinden birinde ortaya çıkar , burada Mississippi nehrinin uzunluğunu zaman içinde modellemeye çalışır - bazılarının erozyonu nedeniyle oldukça rüzgarlıdır ve her yıl kısalır / düzenlenir virajların yanı sıra insan yapımı kısayolların --- ve "yıllar" Kahire, Illinois ve New Orleans arasındaki mesafenin yaklaşık bir mil ve dörtte üçe kadar küçüleceğini "tahmin ediyor".

Son olarak, birden fazla tahmin değişkeniniz varsa gözlenen değer aralığının oldukça karmaşık olabileceğini unutmayın. (Öngörücüler arasındaki korelasyonlar nedeniyle her yordayıcıda yalnızca maxima ve minima tarafından tanımlanan kutuyu alamazsınız.)


1
(+1) Modelin sadece gözlenen verilerin aralığı üzerinde yeterli olduğunu söylemekle birlikte, biraz güçlüdür - tarif ettiğiniz problemler bundan uzaklaştıkça daha fazla ve daha fazla hale gelir.
Scortchi - Monica'yı eski durumuna getirin

Peki, gözlemlenen veri aralığından uzaklaşmak için güvenli bir mesafenin ne kadar uzak olduğu konusunda herhangi bir çalışma var mı? 1'den az standart sapma tamam mı?
Johnson Jason

1
@Scortchi. Alınan nokta. Çoğu durumda modelin bozulması aşamalıdır. Ancak, zaman zaman orada olan sabit sınırlar ve bu neden keder gidiyor ötesine geçmeye çalışırken.
user3697176

1
@JohnsonJason: Bir başparmak kuralı aramanın bir anlamı yok. Modelinizin tahmin edilebileceğini varsayarak tahmin aralıklarını kolayca hesaplayabilirsiniz; ekstrapolasyona güvenme derecesi, konu bilgisine bağlıdır: kabul edilebilir olan şey durumdan duruma değişir.
Scortchi - Monica'yı eski durumuna getirin

1
Mükemmel puan (+1). Ancak, negatif zaman için fiyat tahmininde mantıklı bir sorun yoktur. Asıl sorun, belirli bir süre için negatif fiyat tahmin ediyorsanız (genellikle geçmişte, pratikte). Genellikle bu, modelin ekstrapolasyonun bir çizgiyi (veya eğriyi) çok fazla uzattığı kadar niteliksel olarak yanlış olduğu anlamına gelir. Örneğin bir logaritmik bağlantı işlevi her zaman olumlu tahminler gerektirir.
Nick Cox

4

Verilerinizin olmadığı alanlar için verilere dayalı kararlar veremezsiniz. Hikayenin sonu. Veriler, verilerinizin toplandığı aralık için doğrusal bir şekli çok iyi destekleyebilir, ancak bu şeklin aralığınızın dışında doğrusal olmaya devam ettiğine inanmak için veriye dayalı nedenleriniz yoktur. Güneşin altında herhangi bir şekil olabilir!

Sen olabilir varsayalım veri aralığı dışında doğrusal şekil devam ama bu değil topladığınız verilerle desteklenmiş bir sübjektif bir varsayımdır. Konu uzmanlığına göre, bu varsayımın ne kadar güvenli olduğunu görmek için bir konu uzmanına danışılmasını öneririm.


2
Öyleyse, Y'yi gözlemlenmeyen X'ler için tahmin edemezsek gerçekten gerileme yapmanın anlamı nedir
Johnson Jason

2
Bence mesele hala aralık içinde tahmin edebilmenizdir, sadece aralık dışında tahmin etmek tavsiye edilmez. Muhtemelen yeni veri noktalarının çoğu aralık dahilinde olacaktır, bu nedenle model zamanın büyük çoğunluğunda yararlı olacaktır
Ryan Zotti
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.