Kalıntılardaki çapraz düz çizgiler ve çoklu regresyon için uygun değerler grafiği


11

Verilerim için artıklarda garip kalıplar gözlemliyorum: resim açıklamasını buraya girin

[EDIT] İki değişken için kısmi regresyon grafikleri şunlardır:

http://i.imgur.com/Lh36l.png

http://i.imgur.com/akMjB.png

[EDIT2] PP Grafiği eklendi http://i.imgur.com/pCKFA.png

Dağıtım gayet iyi görünüyor (aşağıya bakınız) ama bu düz çizginin nereden gelebileceğine dair hiçbir fikrim yok. Herhangi bir fikir? resim açıklamasını buraya girin

[GÜNCELLEME 31.07]

Kesinlikle haklısın, retweet sayısının gerçekten 0 olduğu vakalarım vardı ve bu ~ 15 vaka bu garip artık kalıplarla sonuçlandı.

Artıklar artık çok daha iyi görünüyor: http://i.imgur.com/XGas9.png

Ben de bir lös çizgisi olan kısmi gerilemeleri dahil ettim. http://i.imgur.com/Jcr2M.png http://i.imgur.com/eb376.png


Orijinal verilere çizilen yerleştirilmiş hattı da ekleyebilir misiniz?
MånsT

Ayrıca, rakamların alt başlıkları "topluluk: anime" ve "topluluk: astroloji" diyor ki, bu grafiklerin farklı veri kümelerinden geldiği ima ediliyor ...
MånsT

Bağımlı değişkenlerim kategorik olduğunda ya da 'yeterince sürekli' olmadığında kalıntılarımda bu tür kalıpları gördüğümü hatırlıyorum.
Kral

Uygun IV grafiğini ve iki IV'ün kısmi grafiğini
ekledim

Yanıtlar:


23

Görünüşe göre bazı değişimlerinde bağımlı değişkeniniz sabittir veya tahmincilere tamamen doğrusal olarak bağımlıdır. İki ilişkili değişkene sahip olalım, X ve Y (Y bağımlı). Dağılım grafiği solda.

resim açıklamasını buraya girin

Örnek olarak, ilk ("sabit") olasılığa geri dönelim. Tüm Y değerlerini en düşük değerden -0,5'e tek bir değer -1'e yeniden kodlayın (ortadaki resme bakın). X üzerindeki Y'ye basın ve artıkların dağılımını çizin, yani merkezi resmi, tahmin çizgisi şimdi yatay olacak şekilde döndürün. Resminize benziyor mu?


6
Bu en iyi adli istatistik! Büyük bir +1.
Michael R. Chernick

Kesinlikle haklısın, retweet sayısının gerçekten 0 olduğu vakalarım vardı ve bu ~ 15 vaka bu garip artık kalıplarla sonuçlandı. i.imgur.com/XGas9.png
plotti

4

Histogramdaki deseni görmemeniz şaşırtıcı değil, tek desen histogram aralığının biraz genişliğini kaplıyor ve her bölmede sadece birkaç veri noktasını temsil ediyor. Gerçekten hangi veri noktalarının olduğunu bulmanız ve onlara bakmanız gerekir. Tahmin edilen değerleri ve kalıntıları, onları yeterince kolay bulmak için kullanabilirsiniz. Değerleri bulduktan sonra, bu değerlerin neden özel olabileceğini araştırmaya başlayın.

Bunu söyledikten sonra, bu özel desen sadece özel çünkü uzun. Kalıntı planınıza ve kantil planınıza dikkatlice bakarsanız, tekrarlandığını ancak daha küçük diziler olduğunu görürsünüz. Belki de gerçekten sadece bir anomali. Ya da belki de tekrar eden bir modeldir. Ancak, ham verilerde nerede olduğunu bulmanız ve onu anlamak için herhangi bir umudunuz olması için incelemeniz gerekecek.

Size biraz yardım etmek için, kantil-kantil çizim, bir sürü özdeş kalıntıya sahip olduğunuzu gösterir. Bir kodlama hatası olabilir. Ben R ile benzer bir şey üretebilir ...

x <- c(rnorm(50), rep(-0.2, 10), rep(0, 4))
qqnorm(x);qqline(x)

Çizgideki düz iki düz noktayı not edin. Bununla birlikte, bundan daha karmaşık görünmektedir, çünkü özdeş artıkların bir dizi öngörücüye rastladığı bir ima vardır.


3

Kullandığınız anlaşılıyor R. Öyleyse, dağılım grafiğindeki noktaları ? İdentify komutunu kullanarak tanımlayabileceğinizi unutmayın . Sanırım burada birkaç şey oluyor. İlk olarak, LN_RT_vol_in ~ LN_AT_vol_in(vurgulanan) arsasında yaklaşık (.2, 1.5) üzerinde çok etkili bir noktanız var . Bu, yaklaşık -3.7 olan standart artık kalıntıdır. Bu noktanın etkisi regresyon çizgisini düzleştirmek ve aksi takdirde elde edeceğiniz keskin yukarı doğru çizgiden daha yatay bir şekilde eğmek olacaktır. Bunun bir etkisi, tüm artıklarınızın arsa içerisinde başka bir yere yerleştirildikleri yere göre saat yönünün tersine döndürülmesidirresidual ~ predicted (en azından bu değişkenleri düşünürken ve diğerini göz ardı ederken).

Yine de, orijinal verilerinizin 3 boyutlu bulutunda bir yerde bulundukları için gördüğünüz kalıntıların düz çizgisi hala orada olacaktır. Herhangi bir marjinal arazide bulmak zor olabilir. Yardım etmek için define () işlevini kullanabilir ve ayrıca farenizle serbestçe döndürebileceğiniz dinamik bir 3D dağılım grafiği oluşturmak için rgl paketini de kullanabilirsiniz . Bununla birlikte, düz çizgi artıklarının tahmin edilen değerlerinde 0'ın altında olduğunu ve 0 kalıntısının altında olduğunu (yani, yerleştirilmiş regresyon çizgisinin altında olduklarını) unutmayın; nereye bakmanız gerektiği konusunda size büyük bir ipucu veriyor. Konuya tekrar bakmakLN_RT_vol_in ~ LN_AT_vol_in, Sanırım onları görebilirim. Bu bölgedeki nokta bulutunun alt kenarında yaklaşık olarak (-.01, -1.00) çapraz olarak aşağı ve sola doğru uzanan oldukça düz bir nokta kümesi vardır. Bunların söz konusu noktalar olduğundan şüpheleniyorum.

Diğer bir deyişle, artıklar bu şekilde görünüyor çünkü zaten veri alanı içinde bir yerdeler. Özünde, @ttnphns'ın önerdiği budur, ancak orijinal boyutların hiçbirinde oldukça sabit olduğunu düşünmüyorum - orijinal eksenlerinize bir açıda bir boyutta sabit. Ayrıca @MichaelChernick ile, kalan arsadaki bu görünen düzlüğün muhtemelen zararsız olduğunu, ancak verilerinizin gerçekten çok normal olmadığını kabul ediyorum. Ancak bunlar biraz normal-ish ve iyi bir veri var gibi görünüyor, bu nedenle CLT sizi kapsayabilir, ancak her durumda önyükleme yapmak isteyebilirsiniz. Son olarak, 'aykırı' sonuçlarınızı yönlendirdiğinden endişe ediyorum; Bir sağlam bir yaklaşım muhtemelen merited.


1
Bu it's a constant in a dimension at an angle to your original axesifadeniz benim ile karşılaştırılabilir is exactly linearly dependent on the predictor(s)mi yoksa farklı bir şey mi kastediyorsunuz?
ttnphns

@ttnphns, cevap verdiğimde cevabınızın bir kısmını kaçırdım; Ben "sabit" gördüm ve senin komplo puan gördüm, ve ben ne aldı. Evet, "bir boyuttaki sabit ..." mantıksal olarak w / "tam olarak doğrusal olarak bağımlı ...". Şimdi diğer noktalarımın (hangi verilerin suçlu, R stratejileri, sağlam yaklaşımlar, vb.) Hala tartışmaya katkıda bulunduğunu düşünüyorum, ancak temel noktamın sizinkiyle (+1) aynı olduğunu anlıyorum.
gung - Monica'yı eski durumuna döndürün

Tabii, cevabın bana çok katkıda bulundu.
ttnphns

1

Mutlaka histogramın iyi olduğunu söylemem. Bir histogramda en uygun normalin görsel olarak üst üste binmesi yanıltıcı olabilir ve histogrm'niz kutu genişliği seçimine duyarlı olabilir. Normal olasılık grafiği, normalden büyük bir ayrılışa işaret ediyor gibi görünüyor ve histograma baktığımda bile gözümde hafif bir çarpıklık var gibi görünüyor ([0, + 0,5] bölmesinde [-0,5,0] bölmesine kıyasla daha yüksek frekans) ve şiddetli basıklık ([-4, -3.5] ve [2.5, 3] aralıklarında çok büyük bir frekans).

Gördüğünüz desen ile ilgili olarak, dağılım grafiğinden seçmeli keşiften gelebilir. Biraz daha avlarsanız, seçtiğinize paralel olarak iki veya üç tane daha çizgi bulabilirsiniz. Bence bu konuyu çok fazla okuyorsun. Ancak normal olmayanlık gerçek bir endişe kaynağıdır. Yaklaşık -4 kalıntısı olan çok büyük bir aykırı var. Bu artıklar en küçük karelerden mi geliyor? Verilerin dağılım grafiğinde bulunan çizgiye bakmanın aydınlatıcı olabileceğini kabul ediyorum.


Buna daha fazla ışık tutmak için iki IV'ün kısmi parsellerini ekledim
plotti

1
En temel şeyi görmek için, verilerin dağılmış bir grafiğinden geçen doğru çizgiyi görmek istiyorum.
Michael R. Chernick
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.