Etkili artık ve aykırı değer


11

İlk olarak, cevap için bu sitede arama yaptığımı belirtmeliyim. Soruma cevap veren bir soru bulamadım ya da bilgi seviyem o kadar düşük ki cevabı zaten okuduğumu fark etmedim.

AP İstatistik Sınavı için okuyorum. Doğrusal regresyonu öğrenmek zorundayım ve konulardan biri artıklar. İstatistik ve Veri Analizine Giriş sayfasının 253. sayfasında bir kopyası var .

İki değişkenli veri kümesindeki olağandışı noktalar, dağılım grafiğindeki diğer noktaların çoğundan yönünde veya y yönünde düşen noktalardır.xy

Gözlem, verilerin geri kalanından ( x yönündeki verilerin geri kalanından ayrılır) uzakta bir x değerine sahipse potansiyel olarak etkili bir gözlemdir . Gözlemin gerçekten etkili olup olmadığını belirlemek için, bu gözlemin kaldırılmasının eğim değeri veya en az kare çizginin kesişmesi üzerinde büyük bir etkisi olup olmadığını değerlendiririz.xx

Bir gözlem, büyük bir kalıntıya sahipse bir aykırı değerdir . Aykırı gözlem yönündeki en küçük kare çizgiden çok uzaktadır .y

Stattreck.com , artıklardan bir aykırı değer belirlemek için dört yöntem belirtir:

Genel kalıptan büyük bir şekilde sapan veri noktalarına aykırı değerler denir. Bir veri noktasının aykırı olarak değerlendirilmesinin dört yolu vardır.

  1. Diğer veri noktalarına kıyasla aşırı bir X değerine sahip olabilir.
  2. Diğer veri noktalarına kıyasla aşırı Y değerine sahip olabilir.
  3. Aşırı X ve Y değerlerine sahip olabilir.
  4. Aşırı X veya Y değerleri olmasa bile verilerin geri kalanından uzak olabilir.

Bu iki kaynak birbiriyle çelişiyor gibi görünüyor. Herkes kafa karışıklığımı gidermeye yardımcı olabilir. Ayrıca, aşırı nasıl tanımlanır. AP İstatistikleri, veri noktası (Q1-1.5IQR, Q3 + 1.5IQR) dışındaysa, bir aykırı değerse kuralı kullanır. Bunu sadece artıklardan kalan bir grafikten nasıl uygulayacağımı bilmiyorum.

Yanıtlar:


5

Stattrek sitesinin, aykırı değerlerin ve etkili noktaların ders kitabınızdan daha iyi bir açıklaması var gibi görünüyor, ancak yanıltıcı olabilecek kısa bir pasajdan alıntı yaptınız. O kitabım yok, bu yüzden onu bağlam içinde inceleyemiyorum. Ancak, alıntıladığınız ders kitabı pasajında ​​"potansiyel olarak" yazdığını unutmayın. Özel de değil. Bu noktaları akılda tutmak, stattrek ve kitabınız kesinlikle aynı fikirde değil. Ancak, kitabınızın aykırı değerler ve etkili noktalar arasındaki tek farkın x veya y ekseninde sapma olup olmadığı anlamına geldiği (bu kısa pasajdan) anlamında yanıltıcı olduğu anlaşılıyor. Bu yanlış.

Aykırı değerler için "kural" bağlama göre değişir. Alıntıladığınız kural sadece basit bir kural ve evet, gerçekten regresyon için tasarlanmamış. Kullanmanın birkaç yolu vardır. Her x'de birden fazla y değeri hayal ediyorsanız ve kalıntıları incelerseniz, görselleştirmek daha kolay olabilir. Tipik ders kitabı regresyon örnekleri, bu aykırı kuralın nasıl çalışabileceğini görmek için çok basittir ve çoğu gerçek durumda oldukça işe yaramaz. Umarım, gerçek hayatta çok daha fazla veri toplarsınız. Bir regresyon problemine aykırı değerler için kantil kuralı uygulamanız gerekiyorsa, bunun uygun olduğu verileri sağlamalıdırlar.


Cevabınız için teşekkürler, farklı kitapların söylediğiniz gibi dürüstçe verilere bağlı olduğunu söylemeden bu kuralları belirtmeye çalışması can sıkıcı bir durum.
MaoYiyi

1
Aslında, ben de yanlış söyledim ... bu teoriye, yönteme ve verilere bağlı ... tüm çalışma.
John

5

X(XX)1X

Etki, ders kitabınızın belirttiği gibi tasarım noktalarının (X değerleri) bir fonksiyonudur.

Etkinin güç olduğunu unutmayın. Tasarlanmış bir deneyde, karşılık gelen Y değerini doğru bir şekilde ölçebildiğinizi varsayarak, etkili X değerleri istiyorsunuz. Bu şekilde kova için daha fazla patlama olsun.

Benim için, bir aykırı değer temel olarak bir hatadır - yani, verilerin geri kalanıyla aynı modeli takip etmeyen bir gözlem. Bu, veri toplama hatası veya söz konusu nesnenin bir şekilde olağandışı olması nedeniyle oluşabilir.

Stattrek'in birkaç nedenden dolayı bir aykırı tanımını pek sevmiyorum. Regresyon Y'de simetrik değildir ve X, Y rastgele bir değişken olarak modellenmiştir ve X'lerin sabit ve bilinen olduğu varsayılmaktadır. Y'lerin tuhaflığı, X'lerin tuhaflığı ile aynı şey değildir. Etki ve aykırılık farklı şeyler ifade eder. Etki, çoklu regresyonda, kalan arsalara bakılarak tespit edilmez. Tek değişkenli durum için aykırı değerlerin ve etkinin iyi bir açıklaması sizi birden çok durumu da anlamaya ayarlamalıdır.

John'un sebeplerinden dolayı ders kitabınızı daha da beğenmedim.

Sonuç olarak, etkili aykırı değerler tehlikelidir. Bunların yakından incelenmesi ve ele alınması gerekiyor.


Stattrek regresyon açıklamasından hoşlanmamanız, gerçek deneylerin norm olduğu bir arka plandan geliyorsanız uygundur. Tüm nedenleriniz orada geçerlidir. Ancak, yarı deneysel tasarımların daha yaygın olduğu bir arka plandan geliyorsanız, stattrek sitesi daha alakalı olacaktır. Bu durumlarda, hem x hem de y değerleri genellikle rastgele örneklerdir.
John

@John AP İstatistik Sınavını geçmek istemenin arka planı nasıl? Yarı deneysel tasarım nedir? Bir simülasyon için rasgele bir sayı tablosu mu kullanıyor?
MaoYiyi

1
AP istatistik sınavı hakkında hiçbir şey bilmiyorum. Gerçek deneyler, yordayıcı değişkenini manipüle ettiğiniz ve çoklu hipotez veya kontrol ve deney gruplarını vb. Test etmek için gruplar oluşturduğunuz deneylerdir. Yarı deneysel tasarımlar, deney gibi görünen hemen hemen her şeydir. Bu nedenle, x değerinin ağırlık ve y değerinin bir miktar spor becerisi olduğu bir gerileme düşünün. Her iki değişkeni de manipüle etmezsiniz, ikisini de rastgele örneklersiniz. Dolayısıyla, Placidia'nın stattrek eleştirileri gerçek deneyler için oldukça geçerlidir, ancak yarı deneyimler için geçerli değildir.
John

@John ... Tasarlanan deneylerin altın standart olarak görüldüğü bir geçmişten geliyorum. Pratikte, X ve Y'nin çoğu zaman rastgele örnekler olduğunu biliyorum, bu da regresyonun neden kullanıldığını soruyor ve bir çeşit gizli değişken analizi değil.
Placidia

Sadece iki değişkeniniz olduğunda ... :) Bazen bir şeyin diğerini tahmin etmesini önermek için iyi bir teoriniz vardır, örneğin, NBA'ye girme yüksekliği ve olasılığı ... her iki rastgele örnek. Bir veya birkaç (özellikle ilişkisiz) lineer ilişkiler olan durumlarda regresyon iyidir.
John
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.