Doğrusal regresyonla ilgili en yaygın yanlış anlamalar nelerdir?


70

Merak ediyorum, diğer araştırmacılarla işbirliği konusunda geniş deneyime sahip olanlarınız için, karşılaştığınız lineer regresyon hakkındaki en yaygın yanlış anlamalar nelerdir?

Bence vaktinden önceki ortak yanlış anlamaları düşünmek için yararlı bir alıştırma olabilir.

  1. İnsanların hatalarını tahmin etmek ve bazı yanlış anlamaların neden yanlış olduğunu açıkça ifade edebilmek

  2. Bazı kavram yanılgılarımı kendim tespit edip edemediğimin farkına var!

Aklıma gelen birkaç temel şey:

Bağımsız / Bağımlı değişkenler normal olarak dağıtılmalıdır

Doğru yorumlama için değişkenler standartlaştırılmalıdır

Herhangi diğerleri?

Tüm cevaplar açıktır.


5
Bu muhtemelen bir CW yapmalı, çünkü bir olasılıklar listesi davet ediyor ve birinin nesnel olarak 'doğru cevap' olduğunu söylemek zor olacak.
gung

Tanıdığım pek çok insan, verilerini doğrusallaştırmak ve ısrar etmek konusunda ısrar ediyor, hatta kullandıkları bilgisayar ortamı doğrusal olmayan regresyon için iyi bir destek olsa bile. (Doğrusallaştırmalar elbette doğrusal olmayan uyumlar için başlangıç ​​noktaları olarak kullanışlıdır, ancak bu insanlar bunun farkında bile değildir.)
JM istatistikçi değil,

1
@gung: Community Wiki hala bir şey mi? Genelde ağ kullanımından yoksun bırakılan CW, hiçbir zaman gerçekten ücretsiz, genel olarak sorulan büyük liste sorularına, cezaevinden ücretsiz bir kart çıkarması ya da başka türlü kazanmış olabileceği itibarlı insanları soymakla ilgili bir soru, söz konusu olduğunda konuyu gündeme getirmedi. Artık bir soruya bile sokmanın tek yolu, bir moderatörden bunu yapmasını istemeniz.
Robert Harvey,

1
Eğer Tanrı dünyayı doğrusal yapsaydı, doğrusal olmayan bir gerileme olmazdı.
Mark L. Stone

1
@RobertHarvey: Evet, olduğu (ne yazık ki bence) CrossValidated bir şey hala çok. Bununla ilgili bazı sıcak Meta tartışmaları yaptık ( örneğin bu ), ancak şu anki durum, CW durumunun açık kalmak için konuyla ilgili yeterince düşünülmüş tüm görüşlere dayalı veya büyük liste sorularına uygulanıyor olmasıdır.
amip

Yanıtlar:


38

Yanlış öncül: A , DV ve IV arasında güçlü bir ilişki olmadığı anlamına gelir. β^0
Doğrusal olmayan fonksiyonel ilişkiler boldur ve bir çok ilişkinin ürettiği veriler, ilişkinin doğrusal olması gerektiğini varsayarsa, genellikle yaklaşık sıfır eğim oluşturur.

Buna bağlı olarak, başka bir sahte öncül araştırmacıda, çoğu zaman varsayımsal olarak, pek çok tanıtıcı regresyon ders kitabının , IV'ün polinom genişlemelerine DV'nin bir dizi regresyonunu inşa ederek "lineer (örneğin, , ardından , sonra tarafındanYβ0+βXX+εYβ0+βXX+βX2X2+εYβ0+βXX+βX2X2+βX3X3+ε, vb.). Düz çizgi DV ve IV arasındaki doğrusal olmayan bir fonksiyonel ilişkiyi iyi temsil edemediği gibi, bir parabol de tam anlamıyla sonsuz sayıda doğrusal olmayan ilişkiyi (örneğin sinüzoitler, sikloidler, adım fonksiyonları, doygunluk etkileri, s-eğrileri vb. Ad adinitum) temsil edemez. ). Bunun yerine , herhangi bir özel işlevsel form (örneğin, koşu çizgisi pürüzsüzlüğü, GAM'ler, vb.) Varsaymayan bir regresyon yaklaşımı olabilir .

Bir üçüncü sahte öncül tahmin sayısının artırılması olduğunu parametreler mutlaka istatistiksel güç kaybı ile sonuçlanır. Bu, gerçek ilişki doğrusal olmadığında ve tahmin etmek için birden fazla parametre gerektirdiğinde yanlış olabilir (örneğin, "bozuk bir çubuk" işlevi sadece düz bir çizginin kesişme ve eğim terimlerini gerektirmez, aynı zamanda eğimin değiştiği noktayı ve ne kadar şev değişiklikleri Ayrıca tahminler): Yanlış tanımlanmış bir modelin kalıntıları (örneğin düz bir çizgi), daha düşük bir reddetme olasılığı ve daha geniş güven aralığı ve tahmin aralıklarıyla sonuçlanan (önyargılı tahminlere ek olarak) sonuçlanan oldukça büyük büyüyebilir. .


4
(+1) Quibbles: (1) Giriş metinlerinin bile tüm eğrilerin polinom fonksiyonlar olduğu anlamına geldiğini sanmıyorum, polinom fonksiyonlar tarafından belirli bir aralıkta yeterince yaklaştırılabildiklerini ima ediyorlar. Bu yüzden, "belirli bir işlevsel biçimi kabul etmeyen regresyon yaklaşımları" sınıfına giriyorlar, belirsizliği belirten bir "hiperparametre" ile yönetiliyorlar: lüzumsuzluk, hayır. Spline bazında regresyon için knot, polinom bazında regresyon derecesi. (Polinomlar için bir bayrak sallamıyorum - uç noktalarda bizim istediğimizden fazla
ateş etme

2
... sadece onlara haklarını vererek.) (2) Bir sinüzoit, lineer model çerçevesinde bu şekilde uygun olabilir; doğrusal olmayan bir model kullanarak bir doygunluk efekti (dikdörtgen bir hiperbol, örneğin); ve c. Elbette başka türlü söylemediyseniz, belki de bir döngü ya da bir asimptot olduğunu biliyorsanız, bu kısıtlamaları modelinizde uygulamanın faydalı olacağını belirtmek faydalı olabilir.
Scortchi

2
@Scortchi Daha fazla katılamadım! (Gerçekten de, sonsuz sayıda polinom verildiğinde , herhangi bir fonksiyon mükemmel bir şekilde gösterilebilir.) Kısa ve öz amaçlıyordu. :)
Alexis

2
@Alexis Conway tabanının 13 fonksiyonuna polinomlarla yaklaşmayı deneyin. :)
Solomonoff's Secret

1
Veya ...χQ
Stephan Kolassa

22

Yalnızca verilerinin ölçüm hatasına maruz kaldığını varsaymak çok yaygındır (veya en azından, dikkate almamız gereken tek hata budur). Ancak bu, ölçümlerindeki hata olasılığını - ve sonuçlarını - dikkate almaz . Bu, değişkenlerinin deneysel kontrol altında olmadığı gözlemsel çalışmalarda özellikle akut olabilir .yxx

Regresyon dilüsyonu veya regresyon zayıflaması , Spearman (1904) tarafından tanınan bir olaydır, burada basit lineer regresyonda tahmin edilen regresyon eğimi, bağımsız değişkende ölçüm hatasının varlığı ile sıfıra saptırılır. Gerçek eğimin pozitif olduğunu varsayalım - noktalarınkoordinatlarını (belki de en kolay şekilde yatay "lekelemek" olarak görselleştirilen)çarpma etkisininregresyon çizgisini daha az dik hale getirmesidir. Sezgisel olarak, büyük birdeğerinesahip noktaların pozitif ölçüm hatasından dolayı olması muhtemeldir,değeri isegerçek (hatasız) değerini yansıtması daha muhtemeldirve bu nedenle gerçek satırdan daha düşüktür. gözlenen içinxxyxx .

Daha karmaşık modellerde, değişkenlerindeki ölçüm hatası parametre tahminleri üzerinde daha karmaşık etkiler yaratabilir. Değişken modellerinde bu hatayı dikkate alan hatalar var . Spearman, iki değişkenli korelasyon katsayılarını uzaklaştırmak için bir düzeltme faktörü önerdi ve daha gelişmiş durumlar için diğer düzeltme faktörleri geliştirildi. Bununla birlikte, bu tür düzeltmeler zor olabilir - özellikle çok değişkenli durumda ve kafa karıştırıcıların varlığında - ve düzeltmenin gerçek bir gelişme olup olmadığı tartışmalıdır, bkz. Smith ve Phillips (1996).x

Bu nedenle, bunun bir fiyatına iki yanlış anlama olduğunu varsayalım - bir yandan, yazma biçimimizin "tüm hatanın " olduğunu ve bunun görmezden geldiği anlamına geldiğini düşünmek bir hatadır. Bağımsız değişkenlerde fiziksel olarak gerçek ölçüm hataları olasılığı. Öte yandan, diz gerginliği tepkisi gibi tüm durumlarda ölçüm hatası için "düzeltme" nin kör olarak uygulanması tavsiye edilmeyebilir (her şeyden önce ölçüm hatasını azaltmak için adımlar atılması iyi bir fikir olsa da) .yy=Xβ+εy

(Muhtemelen giderek daha genel bir sıraya göre bazı yaygın değişken hata modellerine de bağlanmalıyım: ortogonal regresyon , Deming regresyon ve toplam en küçük kareler .)

Referanslar


Bu notta: bu, "toplam en küçük kareler" veya "ortogonal regresyon" olarak adlandırılan tekniğin kullanılmasının bir nedenidir (okuduğunuz referansa bağlı olarak); düz en küçük karelerden çok daha karmaşıktır, ancak tüm puanlarınız hatalı bir şekilde kirlenmişse, yapmaya değer.
JM, istatistikçi değil

@JM Teşekkürler - evet, aslında başlangıçta TLS'ye bir bağlantı koymak istemiştim ama Smith ve Phillips makalesinde dikkatim dağıldı!
Silverfish

2
+1 Bu konuya harika bir ekleme. İşimde sık sık EIV modellerini düşündüm. Bununla birlikte, karmaşıklıklarından veya "hata oranları" bilgisine güvenmelerinden ayrı olarak, dikkate alınması gereken daha kavramsal bir mesele var: Pek çok gerileme, özellikle denetimli öğrenme veya tahminde, gözlenen tahmincileri gözlemlenen sonuçlarla ilişkilendirmek istiyor . Öte yandan, EIV modelleri, ortalama yordayıcıyla ortalama yanıt arasındaki temel ilişkiyi belirlemeye çalışır ... biraz farklı bir soru.

2
Bu nedenle, “gerçek” regresyonun “seyreltilmesi” (bilimsel bağlamda), “öngörücü fayda yokluğu” veya bir öngörme bağlamında buna benzer bir şey olarak adlandırılır.

21

Bu bağlamda ve ayrıca diğer istatistiksel bağlamlarda uygulanan bazı standart yanlış anlamalar vardır: örneğin, -değerlerinin anlamı , yanlış nedensellik sonucu yanlış çıkaran, vb. p

Çoklu regresyona özgü olduğunu düşündüğüm bir kaç yanlış anlamalar:

  1. Daha büyük tahmini katsayıya ve / veya düşük değerine sahip değişkenin 'daha önemli' olduğunu düşünün. p
  2. Modele daha fazla değişken eklemenin seni gerçeğe yaklaştırdığını düşünmek. Örneğin, üzerindeki basit bir regresyonu eğimi, ve arasındaki gerçek doğrudan ilişki olmayabilir , fakat eğer değişkenleri , bu katsayı, gerçek ilişkinin daha iyi bir gösterimi olacaktır ve Ben eklerseniz , ondan daha da iyi olacaktır. YXXYZ1,,Z5Z6,,Z20

12
İyi şeyler. Bu cevap, ikisinin neden yanlış olduğunu ve bunun yerine ne yapması gerektiğini açıklarsa daha da faydalı olabilir.
DW

14

İlk listelediğiniz listenin muhtemelen en yaygın olduğunu - ve belki de en yaygın şekilde öğretildiğini - açıkça yanlış görülen şeylerin olduğunu söylerdim , ancak burada bazı durumlarda daha az net olan bazı başkaları var ( (gerçekten uygulanıp uygulanmadıklarını) ama daha fazla analizi ve belki de daha ciddiyetini etkileyebilir. Bunlar genellikle basitçe gerileme konusu ortaya çıktığında belirtilmez.

  • İlgi grubundan rastgele örnekler olarak muamele etmek, muhtemelen temsile yakın olamayacak gözlem kümeleri (rastgele örneklenmiş olsalar bile). [Bazı çalışmalar bunun yerine uygunluk örneklerine daha yakın bir şey olarak görülebilir]

  • Gözlemsel verilerle, sürece dahil olan değişkenlerin katsayılarının tahminlerini kesinlikle önyargılayacak (çoğu durumda, muhtemelen işaretlerini değiştirmeye bile), işlemlerin yollarını ele alma girişimleri göz önünde bulundurulmayacak şekilde önemli faktörlerin dışlanmasının sonuçlarını göz ardı etmek onlarla (sorunun cehaletsizliği veya sadece bir şeyin yapılabileceğinin farkında olmamak). [Bazı araştırma alanlarında, toplanan verilerin türünden veya bazı uygulama alanlarındaki kişilere bu konuda daha fazla bilgi verilme olasılığı olduğundan, bu sorun diğerlerinden daha fazladır.]

  • Sahte regresyon (çoğunlukla zamanla toplanan verilerle). [İnsanlar bunun gerçekleştiğinin farkında olsalar bile, problemi tamamen önlemek için sadece durağanlığa göre farklılaşmanın yeterli olduğuna dair başka bir yanlış anlaşılma var.]

Elbette bahsedebileceği pek çok kişi var (neredeyse kesinlikle seri olarak korelasyon gösterecek veya hatta bütünleşecek bağımsız veriler gibi davranmak, örneğin yaklaşık olarak yaygın olabilir).

Zaman içinde toplanan verilerin gözlemsel çalışmalarının hepsinin bir anda çarpabileceğini fark edebilirsiniz ... ancak bu tür bir çalışma, regresyonun standart bir araç olduğu birçok araştırma alanında oldukça yaygındır. Tek bir gözden geçiren veya editör olmadan en az bir tanesini tanıyan ve en azından sonuçlarda bir dereceye kadar feragatname gerektiren yayınları nasıl yayınlayabilecekleri beni endişelendirmeye devam ediyor.

İstatistikler, oldukça dikkatli bir şekilde kontrol edilen deneylerle (belki de çok dikkatli bir şekilde kontrol edilmeyen analizlerle birleştirildiğinde) elde edilemeyen sonuçların problemleriyle dolu, bu sınırların dışına bir adım çıktıktan sonra, tekrarlanabilirlik durumu ne kadar kötü olmalı?


6
Bazı noktalarınızla yakından ilgili olan "sadece verilerinin ölçüm hatasına tabi olduğu" (ya da en azından "dikkate almamız gereken tek hata budur " fikri ) olabilir. Bunun burada ayakkabı boynuzunu hak ettiğinden emin değiliz, ancak değişkenlerinde rastgele hata olasılığını - ve sonuçlarını - görmezden gelmek kesinlikle çok yaygındır . yx
Silverfish,

2
@ Silverfish seninle tamamen aynı fikirdeyim.
Mark L. Stone

@Silverfish CW, bu yüzden böyle uygun bir eklentide düzenleme yapmaktan çekinmeyin.
Glen_b

@Silverfish, bahsettiğimde kendim bile eklememiş olmamın bir nedeni var ... Sanırım muhtemelen yeni bir cevaba değer
Glen_b

12

Muhtemelen bu kavram yanılgılarını söyleyemem, ama belki de ortak karışıklık / kilitlenme noktaları ve bazı durumlarda araştırmacıların farkında olamayacağı sorunlar olabilir.

  • Çok doğrusal bağlantı (veri noktalarından daha fazla değişken olması durumunda)
  • Değişen Varyans
  • Bağımsız değişkenlerin değerlerinin gürültüye tabi olup olmadığı
  • Ölçeklendirme (veya ölçeklenmemesi) katsayıların yorumlanmasını nasıl etkiler?
  • Birden fazla konudaki veriler nasıl ele alınır?
  • Seri korelasyonlarla nasıl başa çıkılır (örn. Zaman serileri)

Şeylerin yanılgısı tarafında:

  • Doğrusallığın ne anlama geldiği (ör. , doğrusal olmayan wrt , ancak ağırlıkça doğrusaldır).y=ax2+bx+cx
  • Bu 'regresyon' sıradan en küçük kareler veya doğrusal regresyon anlamına gelir
  • Bu düşük / yüksek ağırlıkların mutlaka bağımlı değişkenle zayıf / güçlü ilişkiler olduğu anlamına gelir.
  • Bağımlı ve bağımsız değişkenler arasındaki bu bağımlılık mutlaka ikili bağımlılığa indirgenebilir.
  • Eğitim setindeki yüksek uyum iyiliği, iyi bir model anlamına gelir (ör. Aşırı uyumu ihmal etmek)

7

Deneyimlerime göre, öğrenciler sık ​​sık kare hataların (ya da OLS regresyonunun) doğal olarak uygun, doğru ve genel olarak iyi bir şey olduğu ya da alternatif olmadıkları fikrini benimsiyorlar. Sık sık OLS'un "daha aşırı / sapkın gözlemlere daha fazla ağırlık verdiğini" ve çoğu zaman bunun arzu edilen bir özellik olduğu ima edildiğini belirten ilanlarını sık sık gördüm. Bu kavram daha sonra, aykırı davranışın ve güçlü yaklaşımların tedavisi uygulandığında değiştirilebilir, ancak bu noktada hasar yapılır. Muhtemelen, kare hataların yaygın olarak kullanılması, tarihsel olarak gerçek dünyadaki hata maliyetlerinin bazı doğal yasalarına göre matematiksel kolaylıklarıyla daha fazla ilgilidir.

Genel olarak, hata işlevi seçiminin bir şekilde keyfi olduğu anlayışına daha fazla vurgu yapılabilir. İdeal olarak, bir algoritma içindeki herhangi bir ceza seçeneğine, potansiyel hatayla ilişkili (yani bir karar verme çerçevesi kullanılarak) ilgili gerçek dünya maliyet fonksiyonu yönlendirilmelidir. Neden önce bu prensibi oluşturup, ne kadar iyi yapabileceğimize bakmıyoruz?


2
Seçim de uygulamaya bağlıdır. OLS, cebirsel, y ekseni için uygundur ancak daha az kareler (veya dikey mesafeye dayanan diğer bazı maliyet fonksiyonlarının) daha fazla anlamlı olduğu geometrik uygulamalar için daha az faydalıdır.
Willie Wheeler,

4

Diğer bir yaygın yanlış anlama, hata teriminin (veya ekonometri parlansındaki bozulma) ve artıkların aynı şey olmasıdır.

Hata terimi, gerçek model veya veri üretme sürecinde rastgele bir değişkendir ve çoğu zaman belirli bir dağılımı takip ettiği varsayılır, bununla birlikte artıkların, gözlenen verilerin takılı modelden sapmaları olduğu varsayılır. Bu nedenle, artıkların hataların tahmini olduğu düşünülebilir.


İddiaya girerim, insanlar bunun neden önemli olduğu veya ne tür durumlarda olacağı konusunda açıklama yapmak isterler.
rolando2

4

Karşılaştığım en yaygın yanılgı, doğrusal regresyonun hataların normalliğini varsaydığıdır. Öyle değil. Normallik, doğrusal regresyonun bazı yönleriyle bağlantılı olarak faydalıdır; örneğin, katsayıların güven sınırları gibi küçük örnek özellikleri. Bu şeyler için bile normal olmayan dağılımlar için mevcut asimptotik değerler vardır.

İkinci en yaygın olanı, içselliğe ilişkin bir karışıklık kümesidir, örneğin geri bildirim döngülerine dikkat etmemek. Y'den X'e geri bildirim döngüsü varsa bu bir konudur.


4

Yaptığım bir hata OLS'de X ve Y'nin simetrisini varsaymak. Örneğin, OLS kullanarak yazılımım tarafından verilen ile bir ve ile doğrusal bir ilişki varsayarsam, Y'nin bir işlevi olarak X'in varsayılmasının OLS kullanarak katsayıları kullanacağına inanıyorum: bu yanlış.

Y=aX+b
X=1aYba

Belki de bu, OLS ile toplam en küçük kare veya ilk ana bileşen arasındaki farkla da ilgilidir.


3

Sık sık gördüğüm, pratikte, belirli kullanım durumlarında doğrusal regresyonun uygulanabilirliği konusundaki bir yanlış anlamadır.

Örneğin, ilgilendiğimiz değişkenin bir şeyin sayımı olduğunu (örneğin: web sitesindeki ziyaretçiler) veya bir şeyin oranı (örnek: dönüşüm oranları) olduğunu söyleyelim. Bu gibi durumlarda değişken, Poisson (sayım), Beta (oranlar) gibi link fonksiyonları kullanılarak daha iyi modellenebilir. Dolayısıyla, daha uygun link fonksiyonuna sahip genelleştirilmiş bir model kullanılması daha uygundur. Ancak değişken değişken kategorik olmadığı için basit doğrusal regresyon ile başlayan insanları gördüm (link function = identity). Doğruluk etkilerini dikkate almasak bile, modelleme varsayımları burada bir problemdir.


2

Araştırmacılar tarafından sıklıkla gözardı edildiğini düşünüyorum:

  • Değişken etkileşim: Araştırmacılar çoğu zaman bireysel tahmincilerin izole edilmiş betalarına bakarlar ve çoğu zaman etkileşim terimlerini bile belirtmezler. Fakat gerçek dünyada işler etkileşime girer. Tüm olası etkileşim terimlerinin uygun bir şekilde belirtilmesi olmadan, "öngörücülerinizin" bir sonuç oluşturmak için nasıl bir araya geldiklerini bilemezsiniz. Çalışkan olmak ve tüm etkileşimleri belirtmek istiyorsanız, tahmincilerin sayısı patlar. Hesaplamalarıma göre sadece 4 değişken ve bunların 100 denekle etkileşimlerini inceleyebilirsiniz. Bir değişken daha eklerseniz çok kolay bir şekilde kullanabilirsiniz.

0

Diğer bir yaygın yanılgı, tahminlerin (takılan değerler) dönüşümler için değişmez olduğu, örn.

f(y^i)f(yi)^
, genel olarak burada , monte regresyon değeri göre Tahmini regresyon katsayıları.y^i=xiTβ^

Monotonik fonksiyonlar için istediğiniz şey buysa, mutlaka lineer değil, o zaman istediğiniz miktar kuantil bir regresyondur.f()

Yukarıdaki eşitlik, doğrusal fonksiyonlar için doğrusal regresyonda bulunur, ancak doğrusal olmayan fonksiyonlar (örn. ) bunu tutmaz. Bununla birlikte, bu kuantil regresyonda herhangi bir monotonik işlev için geçerli olacaktır.log()

Bu, verilerinizin bir log dönüşümü yaptığınızda, doğrusal bir regresyona uyduğunuzda, sonra takılan değeri üstelleştirdiğinizde ve insanlar bunu regresyon olarak okuduğunda her zaman ortaya çıkar. Bu demek değildir, bu medyandır (eğer şeyler gerçekten log-normal olarak dağıtılmışsa).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.