Doğrusal regresyonun sadece açıklayıcı değişkenler ile yanıt değişkeni arasında doğrusal fonksiyonel ilişkiler olduğundan şüphelenildiğinde uygun olduğuna dair saf bir düşüncem var. Ancak pek çok gerçek dünya uygulaması bu kriteri karşılamıyor gibi görünmektedir.
Bu, "doğrusal regresyon" da "doğrusal" neyin doğru anlaşılması değildir.
O arasındaki ilişki değil ve 'in (tüm temel örnekler sizi yanıltma olasılığı olsa da) doğrusal form olduğu varsayılır söyledi.xyx
"Doğrusal", parametrelerde doğrusal olan model anlamına gelir ve ile bazı arasındaki doğrusal olmayan ilişkiler kesinlikle bu şekilde modellenebilir.xyx
Burada tek bir öngörücüye sahip bir örnek var , ancak eğrisel modeller daha çok çoklu regresyon olarak takılıyor, burada regresyonda bir kestiricinin (x değişkeni, bağımsız değişken) çeşitli işlevleri oluşabilir ve bu çok fazla esnekliğe izin verir. Örneğin polinom regresyonu da buna dahildir. Burada bazı tartışmalara ve örneklere bakın .
Ancak, öngörücülerin kavisli ilişkilere uyacak şekilde dönüştürülebilmesine izin verirsek, parametrelerdeki doğrusallık dönüştürülmüş öngörücülerdeki doğrusallığa da karşılık gelir.
Ek olarak, birçok sorun doğrusaldır (en azından dikkate alınan değer aralığının üzerinde) veya herhangi bir hafif eğriliğin ayırt edilemeyeceği kadar gürültülüdür ve artan veya azalan bir ilişki için çeşitli basit modeller yapabilir - ve bu durumda doğrusal bir seçim hem uyması hem anlaşılması hem yeterli hem de en basit olabilir.
Bir projenin hangi yönleri deneyimli bir istatistikçinin ayakkabılarımda olup olmadığını düşünmek, doğrusal regresyon için çok uygun bir soru + veri aramak olabilir.
Regresyon uygulamak için bir sorun arayabileceğim tek zaman, öğretim için iyi bir örnek bulmaya çalıştığım zamandır. Aslında istatistiksel çalışma yapma konumundayken (açıklamak veya öğretmek yerine), yönteme uygun verileri seçmek yerine, ilgilenilen soruya (ve verilerin özelliklerine) uygun yöntemi seçerim.
Örneğin bir marangoz düşünün. Marangoz spokeshave alıp söylemez "ne kullanabilir bu üzerinde?". Bunun yerine, marangozun çözmesi gereken bir sorunu vardır ve sorunun özelliklerini ("ne yapmaya çalışıyorum?" Ve "ne tür bir ahşap kullanıyorum?" Vb.) diğerlerinden daha alakalı. Bazen sınırlayabilir veya seçimler rehberlik edebilir mevcuttur araçları (eğer yoksa sahip bir spokeshave, başka bir şey ile yetinmek zorunda kalabilirsiniz ... ya da sadece bir spokeshave satın gitmek gerekebilir).
Bununla birlikte, size yardımcı olan bir cep istatistikçiniz olduğunu ve doğrusal regresyona uygun bir sorun bulmaya çalıştığınızı varsayalım . O zaman çeşitli regresyon varsayımlarını ve ne zaman önemli olduklarını düşünmenizi önerebilirler. Birkaç şeyden bahsedeceğim.
Eğer y ve bazı tek değişkenli (muhtemelen dönüştürülmüş) x arasındaki bir ilişkiyi kurmakla ilgileniyorsanız , varsayımların çoğu sizin için önemli değildir (Gauss-Markov teoremi biraz alakalı olabilir). Sen düşündüğünüz bir durum için yapmamız gerekecekti yaklaşık lineer olduğu - Bilinen - bazıları için (olduğunu, biz istediğimiz ilişkinin fonksiyonel formu biliyor varsayar) . yazarken , nin en azından yaklaşık olarak doğru olması gerekir.g ( x ) g x ∗ = x E ( y | x ∗ ) = a + b x ∗E(y|g(x))g(x)gx∗=xE(y|x∗)=a+bx∗
Bu çok önemli bir sorun olmasa bile çoklu regresyon kullanabiliyorsanız, oldukça genel ilişkilere uymak için (örneğin) kübik regresyon spline'ları kullanılabilir.
Sahte regresyon ile ilgili sorunları anlamadığınız sürece, zaman içinde verilerden uzak durmanızı öneririm; kesit problemleri ile sopa.
Yalnızca tek bir ile uğraşıyorsanız, kategorik bir yerine sürekli bir tane olmasını bekliyorum .xxx
Sen ölçüm hatalarını almamayı isterdi üzerinde beklenti şartlandırma ilgilenen sürece ölçülen değer.x
Hipotez testi, güven aralıkları veya tahmin aralıkları ile ilgileniyorsanız, normal regresyon varsayımlarından daha fazlası önemli olabilir (ancak bu varsayımları yapmayan alternatifler vardır ve bazı durumlarda, en azından bazı varsayımlar özellikle önemli olabilir).
En azından farkına varmaya çalıştığımız bir şey, kullandığınız çıkarımsal prosedürlerin türetilmesinde yapılan bu varsayımların ne olduğu ve sizin özel probleminizde ne kadar önemli olabileceğidir (örnek olarak, olağan hipotez testlerini gerçekleştirirken, normallik bir varsayımdır, ancak büyük örneklerde bu varsayım önemli olmayabilir; öte yandan, sürekli varyans varsayımı daha önemli olabilir).
Regresyon varsayımlarını tartışan bir dizi yazı ve ne zaman yapılması gerektiğini ve ne kadar önemli olabileceklerini ve hatta hangi sırayla dikkate alınacağını tartışan bazı yayınlar vardır.