Aşçının mesafe kesme değeri


9

Regresyonum üzerinde yüksek etkiye sahip olan aykırı değerleri belirlemek için aşçının mesafesini okuyorum. Cook'un orijinal çalışmasında, etkileyicileri tanımlamak için 1'lik bir kesme oranının karşılaştırılabilir olması gerektiğini söylüyor. Ancak, diğer çeşitli çalışmalar4n veya 4nk1 bir kesme olarak.

Çalışmamda, artıklarımın hiçbirinin D değeri 1'den yüksek değil. 4n bir kesme olarak (4149=.026), etkilenen olarak kabul edilen çeşitli veri noktaları vardır. Bu veri noktalarının kaldırılmasının genel doğrusal regresyonumda bir fark yaratıp yaratmayacağını test etmeye karar verdim. Tüm IV'lerim önemini korudu ve belirgin bir değişiklik görülmedi.

Tüm veri puanlarımı saklamalı ve 1 kesme oranını mı kullanmalıyım? Veya kaldırılsın mı?


Check Baltagi (2011) Ekonometri, 5e. Bölüm 8, bölüm 8.1. Aşçı'nın mesafesinden kaynaklanan başka bir önlem önerir ve ayrıca, tahmin edicilerinizin çok fazla değişmemesi nedeniyle, ihtiyaç duyabileceğiniz Var-Covar matrisinde etkili obsesyondan kaynaklanan çarpılmaları / etkileri de kontrol eder ...
SirAlex

10
Bu tanılamaya dayanarak hiçbir veriyi kaldırmamalısınız. Amacı, onları ve analiziniz üzerindeki etkilerini düşünmenize yardımcı olmaktır .
whuber

Yanıtlar:


6

Muhtemelen tam veri setinizle birlikte orijinal modelinizle giderdim. Genelde bunları duyarlılık analizlerini kolaylaştırmak olarak düşünüyorum. Yani, sadece aptalca bir şey yüzünden belirli bir sonuca sahip olmadığınızdan emin olmak için neyi kontrol edeceğinizi işaret ederler. Sizin durumunuzda, potansiyel olarak etkili bazı noktalarınız var, ancak modeli onlarsız tekrar çalıştırırsanız, aynı cevabı alırsınız (en azından muhtemelen önem verdiğiniz yönlerle ilgili olarak). Başka bir deyişle, istediğiniz eşiği kullanın; modeli 'gerçek' sürüm olarak değil, yalnızca çek olarak yeniden takıyorsunuz. Diğer insanların potansiyel aykırı değerlerden yeterince endişe duyacağını düşünüyorsanız, her iki model uyumunu da bildirebilirsiniz. Söyleyeceğiniz şey,

İşte sonuçlarım. Bu tablonun sadece birkaç olağandışı, ancak oldukça etkili gözlemlerden dolayı ortaya çıkabileceği düşünülebilir. Bunlar aynı modelin sonuçlarıdır, ancak bu gözlemler olmadan. Hiçbir önemli fark yoktur.

Bunları kaldırmak ve ikinci modeli birincil sonuç olarak kullanmak da mümkündür. Sonuçta, orijinal veri kümesiyle kalmak, hangi verilerin alt kümeyle olduğu kadar modele ait olduğu varsayımına eşittir. Ancak insanlar bildirilen sonuçlarınızdan çok şüpheci olabilirler, çünkü psikolojik olarak, herhangi bir gerçek yolsuz niyet olmadan, kendilerini veren bir dizi post-tweak (bazı gözlemleri bırakmak gibi) ile ikna etmek çok kolaydır. en çok görmeyi bekledikleri sonuç. Her zaman tam veri kümesiyle devam ederek, bu olasılığı önlersiniz ve insanlara (örneğin, yorumcular) projenizde olup bitenler olmadığını garanti edersiniz.

Buradaki bir başka konu da insanların ' balonu kovalaması '. Bazı potansiyel aykırı değerleri bırakıp modelinizi yeniden çalıştırdığınızda, potansiyel aykırı olarak yeni, farklı gözlemler gösteren sonuçlar elde edersiniz. Kaç tane yinelemeden geçmeniz gerekiyor? Buna standart yanıt, orijinal, tam veri kümenizde kalmanız ve bunun yerine sağlam bir regresyon çalıştırmanızdır . Bu yine bir duyarlılık analizi olarak anlaşılabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.