İstatistiksel modellerde doğrusal olmama kriterleri ve karar verme yöntemleri nelerdir?


10

Umarım aşağıdaki genel soru mantıklıdır. Lütfen bu özel sorunun amaçları doğrultusunda doğrusal olmamaya ilişkin teorik (konu alanı) nedenlerle ilgilenmediğimi unutmayın. Bu nedenle, tüm soruyu aşağıdaki gibi formüle edeceğim :

Teorik (konu alanı) dışındaki nedenlerle istatistiksel modellere doğrusal olmamaya ilişkin mantıksal çerçeve ( ölçütler ve mümkünse karar verme süreci ) nedir? Her zaman olduğu gibi, ilgili kaynaklar ve referanslar da memnuniyetle karşılanmaktadır.

Yanıtlar:


7

Model oluşturma süreci birçok karar veren bir model oluşturucu içerir. Kararlardan biri, keşfedilecek farklı model sınıfları arasında seçim yapmayı içerir . Dikkate alınabilecek birçok model sınıfı vardır; örneğin, ARIMA modelleri, ARDL modelleri, Hata Durumu-Uzay modellerinin Çoklu Kaynağı, LSTAR modelleri, Min-Max modelleri, ancak birkaçı. Tabii ki, bazı model sınıfları diğerlerinden daha geniştir ve bazı model sınıflarının başkalarının alt sınıfları olduğunu bulmak yaygın değildir .

Sorunun doğası göz önüne alındığında, esas olarak sadece iki sınıf modeline odaklanabiliriz; doğrusal modeller ve doğrusal olmayan modeller .

Yukarıdaki resim göz önünde bulundurularak, OP'nin doğrusal olmayan bir modeli benimsemenin ne zaman yararlı olduğu ve bunu yapmak için mantıklı bir çerçeve olup olmadığı - istatistiksel ve metodolojik bakış açısından ele almaya başlayacağım.

Dikkat edilmesi gereken ilk şey, doğrusal modellerin doğrusal olmayan modellerin küçük bir alt sınıfı olmasıdır. Başka bir deyişle, doğrusal modeller doğrusal olmayan modellerin özel durumlarıdır. Bu ifadenin bazı istisnaları vardır, ancak mevcut amaçlar için, konuları basitleştirmek amacıyla kabul ederek fazla kaybetmeyeceğiz.

Tipik olarak, bir model oluşturucu bir model sınıfı seçecek ve bazı metodoloji kullanarak o sınıfın içinden bir model seçmeye devam edecektir. Basit bir örnek, bir zaman serisini ARIMA süreci olarak modellemeye karar verdiğinde ve daha sonra ARIMA modelleri sınıfından bir model seçmek için Box-Jenkins yöntemini izlediğinde. Bu şekilde çalışmak, model aileleriyle ilişkili metodolojilerle pratik bir zorunluluk meselesidir.

Doğrusal olmayan bir model oluşturmaya karar vermenin bir sonucu, daha küçük doğrusal modeller arasından seçim yapmakla karşılaştırıldığında, model seçim sorununun daha büyük hale gelmesidir (daha fazla model düşünülmeli ve daha fazla karar verilmelidir), bu yüzden gerçek eldeki pratik konu. Ayrıca, doğrusal olmayan modellerin bazı ailelerinden seçim yapmak için kullanmak için tam olarak geliştirilmiş yöntemler (bilinen, kabul edilen, anlaşılan, iletişim kolaylığı) bile olmayabilir. Ayrıca, doğrusal olmayan modellerin oluşturulmasının bir başka dezavantajı, doğrusal modellerin daha kolay kullanımının ve olasılık özelliklerinin daha iyi bilinmesidir ( Teräsvirta, Tjøstheim ve Granger (2010) ).

Bununla birlikte, OP, pratik veya alan teoriklerinden ziyade karara rehberlik etmek için istatistiksel gerekçeler ister, bu yüzden devam etmeliyim.

Hangi doğrusal olmayan modellerle çalışılacağını nasıl ele alacağınızı düşünmeden önce, bunun yerine başlangıçta doğrusal modellerle mi yoksa doğrusal olmayan modellerle mi çalışacağınıza karar verilmelidir. Bir karar! Bu seçim nasıl yapılır?

Granger ve Terasvirta'ya (1993) itiraz ederek , aşağıdaki iki soruya yanıt olarak iki ana noktaya sahip olan aşağıdaki argümanı benimsiyorum.

S: Doğrusal olmayan bir model oluşturmak ne zaman yararlıdır? Kısacası, doğrusal modellerin sınıfı, incelenen ilişkiyi karakterize etmek için zaten düşünüldüğünde ve yetersiz görüldüğünde, doğrusal olmayan bir model oluşturmak yararlı olabilir. Bu doğrusal olmayan modelleme prosedürünün (karar verme süreci) basitten genele, doğrusaldan doğrusal olmayana doğru gittiği söylenebilir.

S: Doğrusal olmayan bir model oluşturmayı haklı çıkarmak için kullanılabilecek istatistiksel gerekçeler var mı? Doğrusallık testlerinin sonuçlarına dayanarak doğrusal olmayan bir model oluşturmaya karar verirse, evet, diyebilirim. Doğrusallık testi, ilişkide önemli bir doğrusallık olmadığını gösterirse, doğrusal olmayan bir model oluşturulması önerilmez; test yapma kararından önce gelmelidir.

Granger ve Terasvirta'ya (1993) doğrudan atıfta bulunarak bu noktalara değineceğim:

Doğrusal olmayan bir model oluşturmadan önce, doğrusal bir modelin analiz altındaki [ekonomik] ilişkileri yeterince karakterize edip etmeyeceğini bulmak tavsiye edilir. Eğer durum böyle olsaydı, makul bir model oluşturmak için doğrusal olmayan bir modelin uygun olduğundan daha fazla istatistiksel teori olurdu. Ayrıca, eğer model doğrusal olsaydı, bir dönemden daha uzun bir süre için optimal tahminler elde etmek çok daha kolay olurdu. En azından zaman serileri kısa olduğunda, değişkenler arasındaki gerçek ilişki doğrusal olmasına rağmen araştırmacının doğrusal olmayan bir modeli başarılı bir şekilde tahmin etmesi olabilir. Bu nedenle model oluşturmayı gereksiz yere karmaşıklaştırma tehlikesi gerçektir, ancak doğrusallık testi ile azaltılabilir.

Daha yeni bir kitap olan Teräsvirta, Tjøstheim ve Granger (2010) 'da, şimdi önerdiğim aynı tür tavsiyeler verilmiştir:

Pratik açıdan bakıldığında, daha karmaşık olmayan doğrusal modelin tahmin edilmeden önce doğrusallığı test etmek yararlıdır. Çoğu durumda, test istatistiksel açıdan bile gereklidir. Bir dizi popüler doğrusal olmayan model doğrusallık altında tanımlanmamıştır. Verileri üreten gerçek model doğrusal ise ve doğrusal olmayan model bu doğrusal modeli iç içe geçiriyorsa, doğrusal olmayan modelin parametreleri tutarlı bir şekilde tahmin edilemez. Dolayısıyla doğrusallık testi, doğrusal olmayan modelleme ve tahminden önce gelmelidir.

Bir örnekle bitireyim.

İş çevrimlerinin modellenmesi bağlamında, doğrusal olmayan bir model oluşturmayı haklı çıkarmak için istatistiksel temelleri kullanmanın pratik bir örneği aşağıdaki gibi olabilir. Doğrusal tek değişkenli veya vektör otoregresif modeller asimetrik döngüsel zaman serileri üretemediğinden, verilerdeki asimetrileri işleyebilen doğrusal olmayan bir modelleme yaklaşımı dikkate alınmalıdır. Veri yaklaşık olarak bu örneğin bir genişletilmiş versiyonu tersinirlik bulunabilir Tong (1993) .

Zaman serisi modellere çok fazla yoğunlaşırsam özür dilerim. Ancak, bazı fikirlerin başka ortamlarda da geçerli olduğundan eminim.


2
Graeme, cevabınız mükemmel ve diğer cevaplar da mükemmel olsa da, sizin aradığım şeylere en yakın olanı (eğer isterseniz mini bir versiyon). +1 ve kabul edildi. Cevabınızı hazırlama çabanız için çok teşekkür ederim. Eminim referansları olduğu kadar bir kereden fazla inceleyeceğim. Dr. Harrell'in regresyon stratejileri üzerine yazdığı kitabın ideal olarak sahip olabileceğim bir çerçevenin bazı bölümlerini de içerdiğini düşünüyorum. Bu arada, tematik bir istatistiksel çerçeve fikrim Lisa Harlow'un okumaktan zevk aldığım mükemmel "Çok Değişkenli Düşüncenin Özü" adlı kitabından ilham alıyor.
Aleksandr Blekh

12

Aşırı kavrama konusu, doğrusallığın ne tür problemlerin bekleneceğine karar vermektir, aksi takdirde örneklemin izin verdiği ölçüde ilişkilerin doğrusal olmamasına izin verin. Biyoloji, sosyal bilimler ve diğer alanlardaki süreçlerin çoğu doğrusal değildir. Doğrusal ilişkiler beklediğim tek durumlar:

  1. Newton mekaniği
  2. Tahmini den önceki bir zamanda ölçülenYYY

İkinci örnekte, birinin aynı zamanda başlangıçta da (zaman sıfır) ölçülen bağımlı bir değişkenine sahip olduğu durum bulunmaktadır .Y

Büyük bir veri kümesinde her yerde doğrusal olan nadiren bir ilişki görüyorum.

Regresyon modellerine doğrusal olmamaları dahil etme kararı, küresel bir istatistiksel prensipten çok değil, dünyanın çalışma şeklinden çok fazla gelir. Bunun bir istisnası, optimal olmayan bir istatistiksel çerçevenin seçilmesi ve sadece çerçevenin kötü bir şekilde seçilmesini telafi etmek için doğrusallıkların veya etkileşim terimlerinin ortaya konulması gerektiğidir. Etkileşim terimleri bazen temel modelleme (örneğin doğrusallık varsayarak) ana etkilerini dengelemek için gerekli olabilir. Diğer ana etkilerin yetersiz modellenmesinden kaynaklanan bilgi kaybını dengelemek için daha fazla ana etki gerekebilir.

Araştırmacılar bazen belirli bir değişkeni doğrusal değişken davranmaya zorlayarak bir dizi diğer değişkeni yetersiz yerleştirirken ekleyip eklememeleri konusunda acı çekiyorlar. Deneyimlerime göre, doğrusallık varsayımı, önemli olan tüm varsayımların en çok ihlal edilenlerinden biridir.


2
+1 Dr. Harrell, değerli cevabınız için teşekkür ederim. Puanlarını anlıyorum. Bununla birlikte, araştırmacı veya veri bilimcisinin istatistiksel teoriler veya çeşitli konular (istatistiksel, veri, metodoloji vb.) Nedeniyle ek doğrusal olmayan bileşenler tanıtmak zorunda kaldığı durumları da merak ediyorum (ve aslında sorumun özü buydu). .), konu alan teorileri değil. Bu konudaki görüşleriniz için teşekkür ederiz.
Aleksandr Blekh

5
Doğrusallık, verilere, işlemden çok (veya daha fazla) bağlıdır. Çoğu alandaki işlemlerin çoğu, yeterince dar bir aralıkta incelendiğinde doğrusaldır (bu nedenle Matematik çok yaygın olarak faydalıdır) ve yeterince geniş bir aralıkta (mekanik işlemler dahil) doğrusal değildir. Her ne kadar yeterince büyük bir örnek boyutu mevcut olduğunda hemen hemen her şeyin doğrusal görünmeyebileceğini öne sürmek doğru olsa da, belki de sorunu çerçevelemenin daha pragmatik bir yolu, doğrusal bir modelin ne zaman uygulanmasının yararlı olacağına nasıl karar verileceğidir.
whuber

2
@whuber: Yorumunuz için teşekkür ederim. Çok kullanışlı. Şimdi ( perspektif olmayan) doğrusallık hakkında iki açıdan daha iyi anlıyorum : teorik (konu alanı) ve veri merkezli . Hala istatistiksel varsayımlar , sorunlar (yani, EDA sonrası) veya benzer yönlerden dolayı ilave doğrusallık getirmemeye ilişkin istatistiksel ve / veya metodolojik bakış açılarını merak ediyorum . Bu nedenle, konuyu önerdiğiniz çerçeveye ek olarak, doğrusal olmayan bir modeli benimsemenin ne zaman yararlı olduğu konusunda karar verme çerçevesiyle de ilgileniyorum .
Aleksandr Blekh

1
"Çoğu alandaki çoğu süreç, yeterince dar bir aralıkta incelendiğinde lineerdir (bu nedenle Matematik bu kadar yaygın olarak faydalıdır) ve yeterince geniş bir aralıkta doğrusal değildir", ancak matematik üzerine bir ders alan herkes tarafından açıkça görülürken, bu bir benim için göz açıcı içgörü. Teşekkürler Dr. @whuber +1.
mugen

3
@Aleksandr Blekh, doğrusal olmayan bir model kullanarak haklı göstermek için (altta yatan teoriden gelen bir nedenin aksine) size istatistiksel bir neden verecek bir istatistiksel test veya artık bir arsa mı arıyorsunuz?
mugen

4

Model oluştururken her zaman değişkenlerin karelerini doğrusal bileşenlerle birlikte denerim. Örneğin, basit bir regresyon modeli inşa bir kare vadede atmak Eğer , bunu anlamlıdır doğrusal olmayan bir model için bir durum olabilir. Sezgi, elbette, Taylor genişlemesidir. Doğrusal bir fonksiyonunuz varsa, sadece ilk türev sıfırdan farklı olmalıdır. Doğrusal olmayan fonksiyonlar için yüksek mertebeden türevler sıfırdan farklı olacaktır.y i = α + β x i + γ x 2 i + ε i γ

yi=α+βxi+εi
yi=α+βxi+γxi2+εi
γ

Ben de sık sık asimetrik şartname aday deneyin: Eğer , o zaman beni dikkate anlamlı kılan edilir asimetrik özellikleri keşfetmek.

yi=α+βmax(0,xi)+γmin(0,xi)+εi
γβ

Bazen verilerimde bazı özel değerler veya bantlar var; veya açıklayıcı değişkenlerin histogramlarımda bükülme ve bükülme noktaları var. Bu özel noktaların veya bölgelerin etrafındaki doğrusal spline'ları deniyorum . En basit doğrusal eğriler şöyle olacaktır: Bu, noktasından önce ve sonra için farklı eğimler getirecektir . Farklı bölgelerde aynı değişken için birkaç eğim olabilir. Doğrusal spline'm önemliyse, düğüm noktaları ile oynuyorum ve kullanıyorum veya doğrusal olmayan modeller hakkında düşünüyorum.

xa=min(x,a)
xa+=max(x,a)
xx=a

Bu sistematik bir yaklaşım değil, ama her zaman yaptığım şeylerden sadece biri.


1
+1 İlginç bilgiler. Paylaştığınız için teşekkür ederiz - bilmek güzel. Sahip olmayı (hatta hazırlamayı) sevdiğim, temel akıl yürütme ile benzer (büyük ve küçük) yaklaşımların tutarlı bir çerçevesi / iş akışıdır. Böyle bir çerçeve oluşturmanın 1) uygulanabilir ve 2) diğer insanlar için değerli olacağını düşünüyor musunuz?
Aleksandr Blekh

1
@AleksandrBlekh, evrensel çerçeveyi yaratmanın mümkün olduğunu düşünmüyorum. Zaman serilerinde en genel olanı Box-Jenkins.
Aksakal

4
Model seçimi için istatistiksel testler tahminleri ve özellikle standart hataları bozacaktır.
Frank Harrell

1
@ssdecontrol, Taylor genişleme argümanı da düşük dereceli polinom terimlerini kullanmama konusunda beni endişelendiriyor. Örneğin, bir aday belirtimi ise, modelinizin şekli hakkında güçlü bir fikriniz olmalıdır. yi=β2xi2+εi
Aksakal

2
@ssdecontrol: Taylor serisi buluşsal yöntemi hakkında daha fazla bilgi için Venables (1998), "Doğrusal modellerde tefsirler ", S-Plus Kullanıcı Konferansı, Washington DC'ye bakınız .
Scortchi - Monica'yı eski durumuna döndürün
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.