Bir problemin doğrusal regresyon için çok uygun olduğuna dair ipuçları


12

Montgomery, Peck ve Vining'in Doğrusal Regresyon Analizine Giriş'i kullanarak doğrusal regresyon öğreniyorum . Bir veri analizi projesi seçmek istiyorum.

Doğrusal regresyonun sadece açıklayıcı değişkenler ile yanıt değişkeni arasında doğrusal fonksiyonel ilişkiler olduğundan şüphelenildiğinde uygun olduğuna dair saf bir düşüncem var. Ancak pek çok gerçek dünya uygulaması bu kriteri karşılamıyor gibi görünmektedir. Yine de doğrusal regresyon çok yaygındır.

Bir projenin hangi yönleri deneyimli bir istatistikçinin ayakkabılarımda olup olmadığını düşünmek, doğrusal regresyon için çok uygun bir soru + veri aramak olabilir.


3
Bir teknik öğrendiğinizi ve nerede çalışacağını bilmek istediğinizi takdir ediyorum. Ancak deneyimli istatistikçiler (ve istatistiksel olarak düşünülmüş bilim adamları) için durum tamamen tersidir: bir sorun ve veri vardır ve o zaman soru ne tür modellerin ve yöntemlerin en iyi seçim olduğudur. İlk karşılaşılan lineer regresyonun sadece bir lezzet olduğunu göreceksiniz; deneyimlerle insanlar Poisson regresyonuna, logit regresyonuna vb. atlamaktan mutluluk duyarlar ve parametrelerdeki doğrusallık bile daha genel yapılarla kolayca birleştirilebilir.
Nick Cox

ve elbette gözlemler potansiyel olarak otomatik olarak ilişkilendirildiğinde zaman serisi mdels
IrishStat

3
Gerçekte, ilişkinin doğrusal olmadığını bilsek bile, doğrusal modeller sol ve sağ olarak kullanılır. Doğrusal bir modeli birinci dereceden bir yaklaşım, bir çeşit çok değişkenli Taylor açılımı olarak düşünün.
Aksakal

Yanıtlar:


12

Doğrusal regresyonun sadece açıklayıcı değişkenler ile yanıt değişkeni arasında doğrusal fonksiyonel ilişkiler olduğundan şüphelenildiğinde uygun olduğuna dair saf bir düşüncem var. Ancak pek çok gerçek dünya uygulaması bu kriteri karşılamıyor gibi görünmektedir.

Bu, "doğrusal regresyon" da "doğrusal" neyin doğru anlaşılması değildir.

O arasındaki ilişki değil ve 'in (tüm temel örnekler sizi yanıltma olasılığı olsa da) doğrusal form olduğu varsayılır söyledi.xyx

"Doğrusal", parametrelerde doğrusal olan model anlamına gelir ve ile bazı arasındaki doğrusal olmayan ilişkiler kesinlikle bu şekilde modellenebilir.xyx

Burada tek bir öngörücüye sahip bir örnek var , ancak eğrisel modeller daha çok çoklu regresyon olarak takılıyor, burada regresyonda bir kestiricinin (x değişkeni, bağımsız değişken) çeşitli işlevleri oluşabilir ve bu çok fazla esnekliğe izin verir. Örneğin polinom regresyonu da buna dahildir. Burada bazı tartışmalara ve örneklere bakın .

Ancak, öngörücülerin kavisli ilişkilere uyacak şekilde dönüştürülebilmesine izin verirsek, parametrelerdeki doğrusallık dönüştürülmüş öngörücülerdeki doğrusallığa da karşılık gelir.

Ek olarak, birçok sorun doğrusaldır (en azından dikkate alınan değer aralığının üzerinde) veya herhangi bir hafif eğriliğin ayırt edilemeyeceği kadar gürültülüdür ve artan veya azalan bir ilişki için çeşitli basit modeller yapabilir - ve bu durumda doğrusal bir seçim hem uyması hem anlaşılması hem yeterli hem de en basit olabilir.

Bir projenin hangi yönleri deneyimli bir istatistikçinin ayakkabılarımda olup olmadığını düşünmek, doğrusal regresyon için çok uygun bir soru + veri aramak olabilir.

Regresyon uygulamak için bir sorun arayabileceğim tek zaman, öğretim için iyi bir örnek bulmaya çalıştığım zamandır. Aslında istatistiksel çalışma yapma konumundayken (açıklamak veya öğretmek yerine), yönteme uygun verileri seçmek yerine, ilgilenilen soruya (ve verilerin özelliklerine) uygun yöntemi seçerim.

Örneğin bir marangoz düşünün. Marangoz spokeshave alıp söylemez "ne kullanabilir bu üzerinde?". Bunun yerine, marangozun çözmesi gereken bir sorunu vardır ve sorunun özelliklerini ("ne yapmaya çalışıyorum?" Ve "ne tür bir ahşap kullanıyorum?" Vb.) diğerlerinden daha alakalı. Bazen sınırlayabilir veya seçimler rehberlik edebilir mevcuttur araçları (eğer yoksa sahip bir spokeshave, başka bir şey ile yetinmek zorunda kalabilirsiniz ... ya da sadece bir spokeshave satın gitmek gerekebilir).

Bununla birlikte, size yardımcı olan bir cep istatistikçiniz olduğunu ve doğrusal regresyona uygun bir sorun bulmaya çalıştığınızı varsayalım . O zaman çeşitli regresyon varsayımlarını ve ne zaman önemli olduklarını düşünmenizi önerebilirler. Birkaç şeyden bahsedeceğim.

Eğer y ve bazı tek değişkenli (muhtemelen dönüştürülmüş) x arasındaki bir ilişkiyi kurmakla ilgileniyorsanız , varsayımların çoğu sizin için önemli değildir (Gauss-Markov teoremi biraz alakalı olabilir). Sen düşündüğünüz bir durum için yapmamız gerekecekti yaklaşık lineer olduğu - Bilinen - bazıları için (olduğunu, biz istediğimiz ilişkinin fonksiyonel formu biliyor varsayar) . yazarken , nin en azından yaklaşık olarak doğru olması gerekir.g ( x ) g x = x E ( y | x ) = a + b x E(y|g(x))g(x)gx=xE(y|x)=a+bx

Bu çok önemli bir sorun olmasa bile çoklu regresyon kullanabiliyorsanız, oldukça genel ilişkilere uymak için (örneğin) kübik regresyon spline'ları kullanılabilir.

Sahte regresyon ile ilgili sorunları anlamadığınız sürece, zaman içinde verilerden uzak durmanızı öneririm; kesit problemleri ile sopa.

Yalnızca tek bir ile uğraşıyorsanız, kategorik bir yerine sürekli bir tane olmasını bekliyorum .xxx

Sen ölçüm hatalarını almamayı isterdi üzerinde beklenti şartlandırma ilgilenen sürece ölçülen değer.x

Hipotez testi, güven aralıkları veya tahmin aralıkları ile ilgileniyorsanız, normal regresyon varsayımlarından daha fazlası önemli olabilir (ancak bu varsayımları yapmayan alternatifler vardır ve bazı durumlarda, en azından bazı varsayımlar özellikle önemli olabilir).

En azından farkına varmaya çalıştığımız bir şey, kullandığınız çıkarımsal prosedürlerin türetilmesinde yapılan bu varsayımların ne olduğu ve sizin özel probleminizde ne kadar önemli olabileceğidir (örnek olarak, olağan hipotez testlerini gerçekleştirirken, normallik bir varsayımdır, ancak büyük örneklerde bu varsayım önemli olmayabilir; öte yandan, sürekli varyans varsayımı daha önemli olabilir).

Regresyon varsayımlarını tartışan bir dizi yazı ve ne zaman yapılması gerektiğini ve ne kadar önemli olabileceklerini ve hatta hangi sırayla dikkate alınacağını tartışan bazı yayınlar vardır.


Güzel cevap, ama bence soruyu tamamen cevaplamıyor. Bir projenin hangi yönleri deneyimli bir istatistikçinin ayakkabılarımda olup olmadığını düşünmek, doğrusal regresyon için çok uygun bir soru + veri aramak olabilir. cevapsız kalır.
Dawny33

@ Dawny33 Kesinlikle daha sonra buna daha fazla eklemek niyetindeyim - ben yazarken bazı şeyler ortaya çıktı ki ben başlangıçta amaçladığım tam cevabı yazmamı engelledi; Sadece bulunduğum cümleyi bitirmek için zamanım vardı ve şimdi bir iki günlüğüne geri dönmeyebilir. Gerçekten de içindeki tüm yazım hatalarını düzeltmek için zamanım yoktu. (Bu arada bir cevap göndermekte tereddüt etmemelisiniz.) Öte yandan, sorunun öncülünün kusurlu olduğunu belirtmek OP'nin başlangıçta amaçladıklarından farklı şeyler sormak istemesine yol açabilir (genellikle merkezi öncül başarısız)
Glen_b-Monica

Örneğin, ortaya çıkabilecek yeni bir sorunun "örneğiniz var mı?" Olacağını tahmin ediyorum.
Glen_b

@Glen_b teşekkürler. "Doğrusal", parametrelerde doğrusal olan model anlamına gelir . Üzgünüm yanlış yazmış olsaydım, başka türlü ima etmek istememiştim. Anahtar kelime işlevseldi .
cwackers

@Glen_b , çeşitli regresyon varsayımlarını düşünmenizi önerebilirler . Yine kabul etti. Bu konuda açık değildim, ancak Q'um daha çok alan bilgisi hakkında. LR analizi için düşünülen sistemde deneyimli bir istatistikçinin neyi arayacağını merak ediyorum, bu yüzden naif teklifim, tepki ile doğrusal ve işlevsel olarak ilişkili ve yanıtı eşzamanlı ilişkisi ek olan regresörler.
cwackers

4

Yukarıdaki mükemmel cevaplara ek olarak, doğrusal modelin, esas olarak ile ilgili olarak, iyi çalışması için genel gereksinimler vardır . model uyumunu aşırı derecede etkileyecek aşırı değerlere sahip olmaması anlamında iyi davranılması gerekir. İkincisi, şans eseri dönüştürülmesi gerekir, böylece model katkı maddesi olma umuduna sahiptir ve artıklar Gauss'dur (eğer çıkarsama yapıyorsa). Analistler sık ​​sık model çıkarımlarını karşılamak için 2'den fazla dönüşümünü denemede hata yaparlar ki bu da nihai çıkarımı bozar. Bunu söylemenin daha basit bir yolu, dağılımını zaten anlamamız gerektiğidir (Y Y Y Y XYYYYYX) iyi. Uzun yıllara dayanan deneyim, kan basıncı gibi bazı değişkenlerin doğrusal bir modelde iyi davranma eğiliminde olduğunu ve diğerlerinin (örn. Kan kimyası ölçümleri) iyi olmadığını göreceksiniz.

Bütün bunlar, sadece sıralı olduğunu varsayan , garip değerlere tamamen dayanıklı olan ve nasıl dönüştürüldüğünü umursamayan yarı parametrik modellerin aksine . Orantılı olasılıklar ve oransal tehlikeler modelleri iki örnek model sınıfıdır.YYY


İyi davranma yönünü işaret ettiğiniz için teşekkür ederiz. Regresörlerin dönüşümlerini düşündüm, ama cevap değişkeninin değil. Bununla birlikte, artık daha sonra artıkların dağılımını yeniden şekillendirmek için nasıl kullanılabileceğini görüyorum. Resmi doldurduğunuz için teşekkürler. Çok yararlı bir yazı.
cwackers

3

@ Glen_b çok iyi bir cevap verdi ama belirtildiği gibi bitiremedi.

Son sorunuzla ilgili olarak:

Deneyimli bir istatistikçi bence bu soruyu sormazdı. Glen'in belirttiği gibi, sorun araçları tam tersine değil, kullanılacak araçları belirler.

Doğrusal regresyon gibi bir teknik öğrenmeye çalışsaydım, zaten işe yaramış örnekleri kullanırdım - ama gerçek verileri olan, işleri kolaylaştırmak için tasarlanan verilerden oluşmamıştı. Örneklerle Regresyon Modellemesi gibi bir kitap rehberlik sağlayabilir.

Bununla birlikte, bir regresyon sorununa bakmanın ilk adımlarından biri, doğrusal regresyonun aslında uygun olup olmadığına karar vermektir.


Deneyimli bir istatistikçi bence bu soruyu sormazdı. evet, bu yüzden Q'umu "ayakkabımda" olarak nitelendirdim. Kitap tavsiyesi için çok teşekkürler. Bir kopyasını bulurum. Bazı örnekler öykünün en az yarısı kadar yardımcı olacaktır, karşı örnekler diğer yarısıdır.
cwackers

Ahhh, bir teklif! 4. baskının 2. sayfasından: Okuyucuları, regresyon analizi kullanılarak ele alınabilecek soruları (kendi çalışma, araştırma veya ilgi alanlarında) düşünmeye davet ediyoruz.
cwackers

0

Birçok yanıt karşılanması gereken varsayımlara değinmiştir: artıklarda doğrusallık, öngörücünün aralığında varyans homojenliği, regresyon çizgisini etkileyebilecek aşırı değerler ve bağımsız gözlemler. Artık parsellerin çoğu regresyon programı ile üretilmesi oldukça kolaydır ve bazı paketler otomatik olarak (SAS) sağlar.

Bir kişi y'yi dönüştürmekten bahsetti. Bu, bazı alanlarda yaygın bir uygulamadır, ancak taraflı ve muhtemelen yorumlanamayan sonuçlara yol açan bir uygulamadır. Sonuçları orijinal metriğe geri dönüştürmeye çalıştığınızda önyargı ortaya çıkar. Kalanın dağılımsal varsayımlarına uyan bir artık paterni olan başka bir regresyon türüne geçmek daha iyidir. Agresti'nin Kategorik Veri Analizine Giriş bölümündeki bölüm 3'e bakınız . Bazı regresyon ders kitapları genelleştirilmiş doğrusal modeli de tanıtmaktadır.


Dönüşüm hakkındaki karamsarlığı paylaşmıyorum. Sonuçta orijinal dönüşüm oldukça keyfidir. Simetrik dağılım ile kalıntıları dönüştürür ve alırsanız, öngörülen değerlerin geri dönüşümü, orijinal ölçekte tahmin edilen medyan olur. Tahmini medyanlar oldukça faydalıdır. Orijinal ölçekte öngörülen araçlar elde etmek istiyorsanız, smear tahmin edicisini kullanabilirsiniz.
Frank Harrell
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.