Nasıl dahil edilir?


9

terimi ve onun kare (yordayıcı değişkenler) bir regresyon içine dahil etmek istiyorum çünkü düşük değerlerin bağımlı değişken üzerinde olumlu bir etkisi ve yüksek değerlerin olumsuz bir etkisi vardır. yüksek değerlere etkisini yakalamak gerekir. Bu nedenle, katsayısının pozitif ve katsayısının negatif olacağını umuyorum. yanı sıra diğer öngörücü değişkenleri de dahil ediyorum.xx2xx2xx2x

Buradaki bazı yazılarda, çoklu bağlantıdan kaçınmak için bu durumda değişkenleri ortalamanın iyi bir fikir olduğunu okudum. Çoklu regresyon yürütürken, öngörücü değişkenlerinizi ne zaman ortalamalı ve ne zaman standartlaştırmalısınız?

  1. Her iki değişkeni ayrı olarak mı ortalamalıyım yoksa yalnızca ve sonra kareyi almalı mıyım yoksa yalnızca ve orijinal içermeli miyim ?xx2x

  2. sayım değişkeni ise sorun olur mu?x

bir sayı değişkeni olmasını önlemek için, teorik olarak tanımlanmış bir alana, örneğin 5 kilometrekareye bölmeyi düşündüm. Bu, bir nokta yoğunluğu hesaplamasına biraz benzer olmalıdır.x

Ancak, bu durumda katsayıların işareti hakkındaki ilk varsayımımın artık ve x² = 4 olduğu gibi olmayacağından korkuyorum.x=2x²=4

x=2/5 km2 = 0.4 km2

ancak x2 daha küçük olur çünkü x2=(2/5)2=0.16 .


1
Regresyon yazılımınız sayısal sorunları otomatik olarak halledecektir - özellikle, verilerinizi dahili olarak ortalayıp standart hale getirme olasılığı yüksektir. Merkezleme ile ilgili sorularınızı nasıl cevaplayacağınız, katsayıları nasıl yorumlamak istediğinize gelir.
whuber

Yanıtlar:


4

Sorunuz aslında, anlayışımın en iyisine değinmeye çalışacağım birkaç alt sorudan oluşuyor.

  • Düşük ve yüksek değerlerin regresyona bağımlılığı nasıl ayırt edilir?

Düşünüldüğünde ve bunu yapmanın bir yolu, ama emin test kesin olduğunu nelerdir? Regresyonun tüm olası sonuçları için faydalı bir şeyler sonuçlandırabilecek misiniz? Soruyu önceden net bir şekilde sormak yardımcı olabilir ve benzer ve ilgili sorular sormak da yardımcı olabilir. Örneğin , regresyon eğimlerinin farklı olduğu bir eşiğini düşünebilirsiniz . Bu, moderatör değişkenleri kullanılarak yapılabilir . Farklı eğimler (aynı kesişim uygularken) uyumluysa, farkınız yoktur, aksi takdirde farkları için kendinize net bir argüman sağladınız.xx2x

  • Ne zaman ortalamalı ve standartlaştırmalısınız?

Bu sorunun ilk soru ve testle karıştırılmaması gerektiğini düşünüyorum ve önceden veya etrafında ortalamak sonuçları önyargıya sokabileceğinden korkuyorum . En azından ilk aşamada merkezlememeyi tavsiye ederim. Muhtemelen çok doğrusallıktan ölmeyeceğinizi unutmayın, birçok yazar bunun daha küçük bir örnek boyutuyla ( burada ve burada ) çalışmaya eşdeğer olduğunu iddia ediyor .xx2

  • Ayrık sayım değişkeninin (sürekli) bir kayan nokta değişkeninde dönüştürülmesi sonuçların yorumlanmasını değiştirir mi?

Evet, olacak, ancak bu ilk 2 puana bağlı olacaktır, bu yüzden her seferinde bir şeyi ele almanızı öneririm. Bu dönüşüm olmadan regresyonun neden işe yaramayacağına dair hiçbir neden göremiyorum, bu yüzden şimdilik bunu görmezden gelmenizi tavsiye ederim. Ayrıca, ortak bir öğeye böldüğünüzde, ölçeğini değiştirdiğinizi , ancak yukarıda yazdığım gibi, bu eşiğin daha açık bir şekilde değerlendirildiği tamamen farklı bakış açıları olduğunu unutmayın.x2=x


Cevabınız için çok teşekkür ederim, özellikle bağlantılar için !!!
Peter

Yardım etmek bir zevkti. =)
pedrofigueira

4

Genel olarak merkezleme, çoklu bağlantıyı azaltmaya yardımcı olabilir, ancak "büyük olasılıkla çoklu bağlantıdan ölmeyeceksiniz" (bkz. Predrofigueira'nın cevabı).

En önemlisi, kesişimin anlamlı olması için genellikle merkezleme gerekir. Basit modeldeyi=α+βxi+ε, kesme noktası için beklenen sonuç olarak tanımlanır x=0. Eğer birxsıfır değeri anlamlı değildir, itercept de değildir. Değişkeni ortalamak genellikle yararlıdırxortalamaları etrafında; bu durumda, öngörücü formdadır(xix¯) ve kesişme noktası α üzerindeki değeri ortalama eşit olan bir öznenin beklenen sonucudur .xbenx¯

Böyle durumlarda, gereken ortalamak kare sonra ve. ve ayrı olarak ortalayamazsınız , çünkü sonucu "yeni" bir değişkene , bu yeni değişkeni kareye almanız gerekir. Merkezleme demektir?xxx2(xben-x¯)x2

Bir sayım değişkenini, eğer anlamı anlamlıysa ortalayabilirsiniz , ancak sadece ölçekleyebilirsiniz . Örneğin, ve "2" bir taban çizgisi olabilirse, 2 çıkarabilirsiniz: . noktası , üzerindeki değeri bir referans değer olan "2" ye eşit olan bir öznenin beklenen sonucu olur .x=1,2,3,4,5(xben-2)=-1,0,1,2,3xben

Bölmeye gelince, sorun yok: tahmini katsayılarınız daha büyük olurdu! Gelman ve Hill , §4.1, bir örnek verin:

earnings=61000+1300height (in inches)+errorearnings=61000+51height (in millimeters)+errorearnings=61000+81000000height (in miles)+error

Bir inç , böylece, milimetre olan . Bir inç olan , böylece Emiles olan . Ancak bu üç denklem tamamen eşdeğerdir.25.4511300/25.41.6e5810000001300/1.6e5



Cevabınız için teşekkürler Sergio. Bana gerçekten yardımcı oldu. Maalesef yalnızca bir cevabı kabul edilen cevabım olarak işaretleyebilirim.
Peter

Rica ederim. Ve merak etmeyin ;-)
Sergio

1

Düşük x değerlerinin bağımlı değişken üzerinde pozitif etkisi ve yüksek değerlerin negatif etkisi olduğunu varsayıyorum.

Başkalarının katsayıları merkezleme ve yorumlama tedavisini takdir etsem de, burada tarif ettiğiniz şey basitçe doğrusal bir etkidir. Başka bir deyişle, açıkladığınız şey x'in karesini test etme gereğini göstermez .


Benim görüşüme göre, y=β0+β1x1+β2x2+ε, (kısmi) etkisi xi üzerinde y (veya daha iyi E[yx]) dır-dir E[yx]/xi=βi. Bu etkiler sabittir, seviyesine bağlı değildir. xi. Model isey=β0+β1x1+β2x2+β3x22+ε, sonra kısmi etkisi x2 dır-dir β2+2β3x2 ve seviyesine bağlıdır x2. Bu, diğer modellerde de olabilir, örneğin lineer spline modellerinde, ancak basit bir lineer (1. derece) modelde olmayabilir. Yanlış mıyım?
Sergio

@ rolando2: Samte olayından bahsettiğimizden emin değilim. Yalnızca normal öngörücü değişkeni eklersem, bu öngörücü için pozitif veya negatif tahmin edilen bir katsayı alırım. Katsayıya dayanarak, x'e bir birim ekleyerek y'nin belirli bir miktarda artacağını veya azalacağını söyleyebilirim. Ancak bu şekilde küçük değerlerin aslında y'de bir artışa yol açıp açmadığını bulamıyorum, ancak daha yüksek değerler (bilinmeyen belirli bir noktadan itibaren) y'de bir azalmaya yol açar.
Peter

@Peter - Anlıyorum ve sorunuzun "okumak için kullanacağım" cümlesini düzenlemenizi öneriyorum: "x'in bazı bölgelerinde, x'in daha yüksek değerlerinin bağımlı değişken üzerinde olumlu bir etkisi olduğunu, diğer bazı bölgelerde ise yüksek değerlerin olumsuz etkisi vardır. "
rolando2
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.