Standardizasyon ve öğrenci olma arasındaki fark nedir?


21

Standardizasyon varyansının öğrencileşme sırasında bilinmesi bilinmemektedir ve bu nedenle tahmin edilmiştir? Teşekkür ederim.


2
Sorunuzun bağlamını açıklığa kavuşturmak isteyebilirsiniz. Ne tür bir standardizasyon, ne tür bir öğrenci? Bu değerler ne için kullanılıyor?
russellpierce

3
Artıklar hakkında soru soruyorsanız , terminoloji (ahem) standart değildir . Farklı yazarlar aynı şey için farklı isimler kullanırlar ve bazen - ve ne yazık ki en kafa karıştırıcı olarak, farklı şeyler için aynı ismi. Ben dediğimiz vardır: (i) ölçekli (artıklar olarak adlandırılan standardize bazı yazarlar tarafından kalıntılar); (ii) şirket içi öğrenci kalıntıları ( bazı yazarlar / paketler tarafından standardize edilmiş, diğerleri tarafından öğrenci olarak adlandırılmıştır ); (iii) harici olarak öğrenci / öğrenci öğrenci silindi(yy^i)/sArtıklar
Glen_b-Monica'yı

Yanıtlar:


20

Kısa bir özet. Verilen örnek , burada X, bir n x P , β = ( X ' X ) - 1 x ' y ve y = x β = X ( X ' X ) - 1 x ' y = H y , burada H = X ( X Xy=Xβ+εXn×pβ^=(XX)1Xyy^=Xβ^=X(XX)1Xy=Hy " şapka matrisi "dir. Yüzeyde kalan olan E = y - y = y - H y = ( I - H ) Y kitle varyansı σ 2 bilinmemektedir ve tahmin edilebilir M S , E , ortalama kare hatası.H=X(XX)1X

e=yy^=yHy=(IH)y
σ2MSE

Semistudentized artıklar olarak tanımlanmıştır , ancak, artıkların varyansı iki bağlı olduğuσ2veX, tahmin edilen varyansı:V(ei)=KSD(1-hii) buradahııolanIinci çapraz eleman şapka matrisi.

ei=eiMSE
σ2X
V^(ei)=MSE(1hii)
hiii

Dahili olarak öğrenci kalıntısı olarak da adlandırılan standart artıklar şunlardır:

ri=eiMSE(1hii)

Bununla birlikte tek bir ve M S E , yani sigara bağımsız r ı bir olamaz t dağılımı. Prosedür silmek için daha sonra i inci gözlem kalan regresyon fonksiyonu uygun N - 1 gözlem ve yeni elde Y ile temsil edilebilir 's y ı ( i ) . Farkı: d i = y ı - y ı ( i ) olarak adlandırılıreiMSEritin1y^y^i(i)

di=yiy^i(i)
artık silindi . Yeniden hesaplama gerektirmeyen eşdeğer bir ifade: yeni gösterenXveMSegöreX(i)veMS, E(I)yaptıkları için, bağlı olmayaniinci gözlem, elde ederiz: ti=di
di=ei1hii
XMSEX(i)MSE(i)iti'ninsitesindeki denirstudentized(silinmiş)artıklarıya daharici olarak studentized artıklar.
ti=diMSE(i)1hii=eiMSE(i)(1hii)tnp1
ti

Bkz. Kutner ve ark., Uygulamalı Doğrusal İstatistiksel Modeller , Bölüm 10.

Düzenleme: rpierce tarafından cevap mükemmel olduğunu söylemeliyim. OP'nin standartlaştırılmış ve öğrencileştirilmiş artıklarla ilgili olduğunu düşündüm (ve standart artıkların bana garip görünmesini sağlamak için nüfus standart sapmasına böldüm), ama yanılmışım. Umarım OT olsa bile cevabım birine yardım edebilir.


2
... ve bu cevap bir öğrenci regresyon denkleminden kalanları tanımlamakta doğrudur. Karşılık gelen standartlaştırılmış bir artık maddesinin tanımı yoktur. Regresyon çerçevesi sorulan soru için geçerli görünmemektedir. Ancak bu hala değerli bir katkıdır; +1
russellpierce

2
@rpierce, haklısın: "öğrenim" okuduğum anda "artık" da okurum ama onlar sadece aklımdaydı ;-) Üzgünüm. Gözetimimi sadece son tıklamanın ardından fark ettim.
Sergio

9

sσ

Bununla birlikte, alanlar arasında bazı terminolojik farklılıklar olduğu görülmektedir (lütfen bu cevaptaki yorumlara bakın). Bu nedenle, bu ayrımlarda dikkatli olunmalıdır. Dahası, öğrenci puanlarına nadiren böyle denir ve kişi genellikle regresyon bağlamında 'öğrenci' değerleri görür. @Sergio, cevabında bu tür öğrenci silinen artıklar hakkında ayrıntılar veriyor.


2
Wikipedia , "Terim, aynı derecede başka bir istatistik tarafından daha yüksek dereceli bir istatistiğin standardizasyonu için de kullanılır: örneğin, üçüncü merkezi moment tahmini, örnek standart sapmanın küpüne bölünerek standardize edilir. "
Nick Stauner

2
Öğrenci varlığının, nüfus varyansı bilinmiyorsa mevcut standardizasyon biçimi olduğunu söylemek daha güvenli olacaktır. Bu, daha genel, yaygın olarak kullanılan terimle ilgili yanıltıcı bir ifade yerine teknik, terminolojik bir ayrım noktası biçimini alır.
Nick Stauner

2
σ

2
@Nick Bu, çeşitli yetkililerin "standardizasyonu" geniş çapta kullanmadığı ancak hiçbirinin (AFAIK) bu kadar geniş anlamda "öğrenci" kullanmadığı göz önüne alındığında iyi bir çözüm gibi görünüyor.
whuber

2
@rpierce İkinci kitap (Freedman, Pisani ve Purves) yaklaşık 40 yıldır, beş (büyük ölçüde değişmemiş) basımdan geçti ve UC Berkeley'in intro istatistik dersinin metni olarak hayata başladı. Sadece halk sağlığını değil, akla gelebilecek tüm alanları kapsar. Öte yandan, güçlü yanlarından biri, küçük, anlamsız veya aşırı teknik ayrımları vurgulamaktan kaçınmaktır, bu nedenle genel olarak istatistiklere iyi bir rehber olmasına rağmen, gizemli meselelerin çözümü için güvenilemez.
whuber

3

Bu soruya cevap vermek için çok geç kaldım !! Ama cevabı çok basit bir dilde bulamadık, bu yüzden mütevazi bir cevap vermeye çalışın.

Neden standardizasyon yapıyoruz? İki modeliniz olduğunu düşünün.

artıkların her ikisinin de farklı birimlerde olduğunu anlamak zor olurdu. Bu yüzden onları standartlaştırıyoruz. (Z-skoruna benzer teori)

Standart kalıntılar: - Kalıntılar standart sapma tahmini ile bölündüğünde. Genel olarak mutlak değer> 3 ise endişe sebebidir.

Bunu modeldeki aykırı değerleri araştırmak için kullanıyoruz.

Öğrenci Kalıntısı: Bunu modelin kararlılığını incelemek için kullanıyoruz.

İşlem basittir. Bireysel test senaryosunu modelden kaldırırız ve yeni öngörülen değeri buluruz. Yeni değer ile orijinal gözlemlenen değer arasındaki fark, standart hatanın bölünmesiyle standardize edilebilir. bu değer kalan Öğrenci

R kullanarak statik bilgileri keşfetmek için daha fazla bilgi için - http://www.statisticshell.com/html/dsur.html


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.