Etkili nokta, yüksek kaldıraç noktası ve aykırı değerlerin tam anlamı ve karşılaştırması?


15

Wikipedia'dan

Etkili gözlemler , regresyon modelinin tahminleri üzerinde nispeten büyük etkisi olan gözlemlerdir.

Wikipedia'dan

Kaldıraç noktaları , varsa, bağımsız değişkenlerin aşırı veya dış değerlerinde yapılan gözlemlerdir, böylece komşu gözlemlerin eksikliği, yerleştirilmiş regresyon modelinin söz konusu gözleme yakın olacağı anlamına gelir.

Aşağıdaki Wikipedia neden karşılaştırması

Etkili bir nokta tipik olarak yüksek kaldıraç oranına sahip olsa da , yüksek kaldıraç noktası mutlaka etkili bir nokta değildir .


2
Aşağıdaki cevaplar iyi. Cevabımı burada okumak da yardımcı olabilir: Interpreting plot.lm () .
gung - Monica'yı eski

Yanıtlar:


13

Bazı verilere uygun herhangi bir regresyon çizgisini düşünün.

Şimdi fazladan bir veri noktası, verinin ana gövdesinden biraz uzakta, ama bu regresyon çizgisi boyunca bir yerde olan bir uzak nokta hayal edin.

Eğer regresyon çizgisi yeniden yerleştirilecek olsaydı, katsayılar değişmezdi. Tersine, ekstra aykırı değerlerin silinmesinin katsayılar üzerinde sıfır etkisi olacaktır.

Bu nedenle, bir aykırı değer veya kaldıraç noktasının, verilerin geri kalanıyla ve geri kalan modelle mükemmel şekilde tutarlı olması durumunda sıfır etkiye sahip olacaktır.

İsterseniz "çizgi" için "düzlem" veya "hiper düzlem" i okuyun, ancak iki değişkenin ve en basit dağılımın en basit örneği burada yeterlidir.

Bununla birlikte, tanımlara düşkün olduğunuz gibi - çoğu zaman, onlara çok fazla okuma eğilimi gösteriyor - işte benim aykırı değerlerin en sevdiğim tanımı:

"Aykırı değerler, numunenin çoğunluğu ile ilgili sürpriz oluşturan örnek değerleridir" (WN Venables ve BD Ripley. 2002. S. New York ile modern uygulamalı istatistikler : Springer, s.119).

En önemlisi, sürpriz seyircinin zihnindedir ve verilerin örtük veya açık bir modeline bağlıdır. Aykırı değerlerin hiç şaşırtıcı olmadığı başka bir model olabilir, örneğin verilerin normalden ziyade lognormal veya gama olup olmadığını söyleyin.

PS O kaldıraç noktaları sanmıyorum mutlaka komşu gözlemlerini yoksundur. Örneğin, çiftler halinde ortaya çıkabilirler.


Teşekkürler! Aykırı değerler ve yüksek kaldıraç noktaları aynı kavram mıdır? Dan "kaldıraç tipik şapka matrisinin diyagonal olarak tanımlanır" diye Not en.wikipedia.org/wiki/Partial_leverage
Tim

1
Hayır; Bize "outlier" tanımını gösterilmemiş, ama bunlar uç değerler olması gerekmez o dayanak noktalarından tanımından aşağıdaki sensu Venables Ripley'i. (Vikipedi'den vazgeçmeye çalışmanızı tavsiye ederim.) Ayrıca @ Gael'in cevabına da bakınız.
Nick Cox

1
Diyerek şöyle devam etti: "Kritik olarak, sürpriz seyircinin zihnindedir ve verilerin örtük veya açık bir modeline bağlıdır. Aykırı değerlerin hiç şaşırtıcı olmadığı başka bir model olabilir, örneğin verilerin gerçekten lognormal veya gama olup olmadığını normal." Bu nedenle aykırı değerler bazı modellerle tanımlanırken, yüksek kaldıraç noktaları ve etkili noktalar tanımlanmıyor mu?
Tim

1
Venables ve Ripley, okuduğum gibi, esprili bir şekilde akıllı bir noktaya işaret ediyorlardı ve aykırı değerlerin tam, resmi ifadelerle tanımlanabileceği saf fikrini yıkıyorlardı. Ancak diğer tedaviler farklı tarzlarda bulunabilir. Aksine, kaldıraç ve etki, onları ölçme yöntemleri açısından resmi olarak tanımlanabilir. Terminolojiyi kullanmanın iki stili gerçekten tutarlı değildir. Aykırı değerlerin ne olduğu ve ne olmadığı hakkında daha iyi bir fikir edinmek için, gerçek veri analizi deneyimi ansiklopedi girişlerini okumaktan daha fazlasını öğretir.
Nick Cox

29 Temmuz 2013'teki yoruma atıfta bulunan Gael, @Gala tanımlayıcısını kullanıyor. Yazma sırasında sadece bir cevap daha var, ama bu değişebilir.
Nick Cox

20

Basit bir doğrusal model söz konusu olduğunda, yüksek kaldıraç noktasının nasıl etkili olmayabileceğini göstermek kolaydır:

Yüksek kaldıraç ama çok etkili olmayan nokta

Mavi çizgi tüm verilere dayanan bir regresyon çizgisidir, kırmızı çizgi grafiğin sağ üstündeki noktayı yok sayar.

Bu nokta, verilerin geri kalanından çok uzakta olduğu için, sağladığınız yüksek bir kaldıraç noktasının tanımına uyar. Bu nedenle, regresyon çizgisi (mavi olan) ona yakın geçmelidir. Ancak konumu, verilerin geri kalanında gözlenen forma büyük ölçüde uyduğundan, diğer model bunu çok iyi tahmin edecektir (yani, kırmızı çizgi zaten her durumda ona yakın geçer) ve bu nedenle özellikle etkili değildir.

Bunu aşağıdaki dağılım grafiğiyle karşılaştırın:

Yüksek kaldıraç oldukça etkili nokta

Burada, grafiğin sağındaki nokta hala yüksek bir kaldıraç noktasıdır, ancak bu kez verilerin geri kalanında gözlemlenen kalıba gerçekten uymuyor. Mavi çizgi (tüm verilere dayanan doğrusal uyum) çok yakın geçer, ancak kırmızı çizgi geçmez. Bu bir noktayı dahil etmek veya hariç tutmak, parametre tahminlerini önemli ölçüde etkiler: Çok fazla etkisi vardır.

Belirttiğiniz tanımların ve az önce verdiğim örneklerin yüksek kaldıraç / etkili noktaların bir anlamda tek değişkenli “aykırı değerler” olduğunu ve takılan regresyon hattının en yüksek etkiye sahip noktalara yakın geçeceğini ima ettiğini düşünebilirsiniz. durum böyle değil.

Çok etkili gizli nokta

Bu son örnekte, sağ alt taraftaki gözlem, modelin uyumu üzerinde (nispeten kırmızı) ve mavi çizgiler arasındaki farktan tekrar görülebilir) büyük bir etkiye sahiptir, ancak yine de regresyon çizgisinden uzak gibi görünmektedir. tek değişkenli dağılımlarda tespit edilemezken (burada eksenler boyunca “kilimler” ile temsil edilir).


Teşekkürler! Burada kullandığımız yüksek kaldıraç noktası en.wikipedia.org/wiki/Partial_leverage'daki "kaldıraç genellikle şapka matrisinin köşegeni olarak tanımlanıyor" ile tutarlı mı?
Tim

Mükemmel açıklama. Her üç durum için de veri sağlarsanız çok memnun oluruz. Teşekkürler
MYaseen208 23:16
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.