Sağlam ortalama tahmininde çarpışma rotası


15

Bir sürü tahminim var (yaklaşık 1000) ve hepsinin uzun dönem esneklik tahminleri olması gerekiyordu. Bunların yarısından biraz fazlası A yöntemi ve geri kalanı B yöntemi kullanılarak tahmin edilmektedir. Bir yerde "Sanırım B yöntemi A yönteminden çok farklı bir şey tahmin ediyor , çünkü tahminler çok (% 50-60) daha yüksek ". Sağlam istatistikler hakkındaki bilgim hiçbir şeyin yanında değil, bu yüzden sadece her iki örneğin de örnek araçlarını ve medyanlarını hesapladım ... ve hemen farkı gördüm. Yöntem A çok konsantre, medyan ve ortalama arasındaki fark çok az, ancak yöntem B örneği çılgınca değişti.

Aykırı değerlerin ve ölçüm hatalarının B yöntemini çarpıtırdığı sonucuna vardım, bu yüzden teoriyle çok tutarsız olan yaklaşık 50 değeri (yaklaşık% 15) attım ... ve birdenbire her iki örneğin de araçları (CI dahil) çok benzerdi . Yoğunluk grafikleri de.

(Aykırı değerlerin ortadan kaldırılması arayışında, A numunesi aralığına baktım ve B'deki onun dışında kalan tüm numune noktalarını kaldırdım.) Bana sağlam araç tahmininin bazı temel bilgilerini nerede bulabileceğimi söylemenizi istiyorum. bu durumu daha titiz bir şekilde yargılamama izin verin. Ve bazı referanslara sahip olmak. Çeşitli teknikler hakkında çok derin bir anlayışa ihtiyacım yok, daha ziyade sağlam tahmin metodolojisi üzerine kapsamlı bir araştırma yaptım.

Aykırı değerleri çıkardıktan sonra ortalama farkın önemi açısından t-testi yaptım ve p değeri 0.0559 (t yaklaşık 1.9), tam örnekler için t stat 4.5 civarındaydı. Ama asıl mesele bu değil, araçlar biraz farklı olabilir, ancak yukarıda belirtildiği gibi% 50-60 farklı olmamalıdır. Ve yaptıklarını sanmıyorum.


3
Bu verileri kullanarak amaçladığınız analiz nedir? Aykırı değerlerin kaldırılması uygulaması şüpheli istatistiksel güvenilirliğe sahiptir: bunu yaparak herhangi bir düzeyde önem veya anlamsızlık vermek için "veri" yapabilirsiniz. A ve B yöntemlerini kullanarak ölçüm alan A ve B popülasyonları gerçekten homojen popülasyonlar mı yoksa yöntemlerinizin size farklı popülasyonlar vermiş olması mümkün mü?
AdamO

Verilerle başka bir hesaplama veya analiz yapılmayacaktır. Son araştırmalara göre, bahsedilen yöntemlerin her ikisi de tutarlıdır, bu nedenle popülasyonlar homojen olmalıdır; ancak veriler yüksek kalitede değildir ve B'deki bazı değerlerin yanlışlıkla orada olduğu açıktır (yöntem hataya eğilimlidir), kesinlikle ekonomik bir anlam ifade etmezler. Kaldırmanın şüpheli olduğunu biliyorum , bu yüzden daha titiz ve güvenilir bir şey arıyorum.
Ondrej

Yanıtlar:


18

Teori mi, yoksa pratik bir şey mi arıyorsunuz?

Kitap arıyorsanız, işte yardımcı bulduğum bazıları:

  • FR Hampel, EM Ronchetti, PJRousseeuw, WA Stahel, Sağlam İstatistikler: Akıcılık Fonksiyonlarına Dayalı Yaklaşım , John Wiley & Sons, 1986.

  • PJ Huber, Sağlam İstatistikler , John Wiley & Sons, 1981.

  • PJ Rousseeuw, AM Leroy, Sağlam Regresyon ve Aykırı Tespit , John Wiley & Sons, 1987.

  • RG Staudte, SJ Sheather, Sağlam Tahmin ve Test , John Wiley & Sons, 1990.

Pratik yöntemler arıyorsanız, ortalamayı tahmin etmek için birkaç sağlam yöntem vardır ("konum tahmin edicileri" sanırım daha ilkeli terimdir):

  • Ortanca basit, iyi bilinen ve oldukça güçlüdür. Aykırı değerlere karşı mükemmel sağlamlığa sahiptir. Sağlamlığın "fiyatı" yaklaşık% 25'tir.

  • % 5 trimmedli ortalama, başka bir olası yöntemdir. Burada% 5 en yüksek ve% 5 en düşük değerleri atıp, sonucun ortalamasını (ortalama) alırsınız. Bu aykırı değerlere karşı daha az sağlamdır: veri noktalarınızın% 5'inden fazlası bozulmadığı sürece, iyidir, ancak% 5'ten fazlası bozulursa, aniden kötüleşir (incelikle bozulmaz). Tam olarak ne olduğunu bilmiyorum ama sağlamlık "fiyat" medyan daha az.

  • Hodges-Lehmann tahmincisi ( değerleri içeren bir ortancasını hesaplar; burada gözlemlerdir. Bu çok iyi bir sağlamlığa sahiptir: tamamen düşmeden veri noktalarının yaklaşık% 29'una kadar yolsuzlukla başa çıkabilir. Ve sağlamlığın "fiyatı" düşük: yaklaşık% 5. Medyan için makul bir alternatiftir.n ( n + 1 ) / 2 x 1 , , x n{(xi+xj)/2:1ijn}n(n+1)/2x1,,xn

  • Kareler arası ortalama, bazen kullanılan başka bir tahmin edicidir. Birinci ve üçüncü çeyreklerin ortalamasını hesaplar ve bu nedenle hesaplanması kolaydır. Çok iyi bir sağlamlığa sahiptir: veri noktalarının% 25'ine kadar bozulmayı tolere edebilir. Bununla birlikte, sağlamlığın "fiyatı" önemsiz değildir: yaklaşık% 25. Sonuç olarak, bu medyandan daha düşük görünüyor.

  • Önerilen başka birçok önlem var, ancak yukarıdaki önlemler makul görünüyor.

Kısacası, medyan veya muhtemelen Hodges-Lehmann tahmincisini öneririm.

PS Oh, sağlamlığın "fiyatı" ile ne demek istediğimi açıklamalıyım. Sağlam bir tahminci, veri noktalarınızdan bazıları bozulmuş veya başka şekilde aykırı olsa bile yine de iyi çalışacak şekilde tasarlanmıştır. Peki, aykırı değerleri ve bozulması olmayan bir veri kümesinde sağlam bir tahminci kullanırsanız ne olur? İdeal olarak, sağlam tahmincinin verileri mümkün olduğunca verimli kullanmasını istiyoruz. Burada verimliliği standart hata ile ölçebiliriz (sezgisel olarak, tahminci tarafından üretilen tahminde tipik hata miktarı). Gözlemleriniz bir Gauss dağılımından (iid) geliyorsa ve sağlamlığa ihtiyacınız olmayacağını biliyorsanız, ortalama en uygunudur: mümkün olan en küçük tahmin hatasına sahiptir. Sağlamlığın "fiyatı", yukarıda, bu duruma belirli bir sağlam tahmin edici uygularsak standart hatanın ne kadar arttığıdır. Medyan için% 25'lik bir sağlamlık fiyatı, medyan ile tipik tahmin hatasının boyutunun, ortalama ile tipik tahmin hatasının boyutundan yaklaşık% 25 daha büyük olacağı anlamına gelir. Açıkçası, "fiyat" ne kadar düşük, o kadar iyi.


Genellikle medyan olarak tanımlanan HL tahmincisi bkz değerleri için . Yani, köşegen dahil edilmiştir. Bildiğim kadarıyla, R'nin işlevinde de bu şekilde tanımlanır . Köşegenin dışında bırakıldığı tanım için kaynaklarınız var mı? ( x i + x j ) / 2 1 i j nn(n+1)/2(xi+xj)/21ijnwilcox.test(..., conf.int=TRUE)
caracal

+1, bu gerçekten mükemmel. Bununla birlikte, bir nitpick'im var: Son paragrafınızda "hata terimi" ifadesini kullanmam, çünkü genellikle başka bir şey ifade etmek için kullanılır; Bunun yerine, 'örnekleme dağıtımının standart hatasını' veya sadece 'standart hatasını' kullanırdım.
gung - Monica'yı eski durumuna getir

Çok iyi yapılandırılmış ve özlü bir cevap, teşekkür ederim! Bir bakışta ihtiyacım olan şey, ben Henrik tarafından önerilen makaleyi okuyacağım ve ele alınmalıdır. Uzun yaz gecesi eğlencesi için, siz ve jbowman'ın önerdiği kitapları kontrol edeceğim.
Ondrej

@caracal, haklısın. HL tahmincisinin karakterizasyonu yanlıştı. Düzeltme için teşekkürler. Cevabımı buna göre güncelledim.
DW

Teşekkürler @ gung! Cevabınızı önerdiğiniz gibi 'standart hata'yı kullanacak şekilde düzenledim.
DW

7

Kısa ve sindirimi kolay bir şeyden hoşlanıyorsanız, psikolojik literatürden aşağıdaki makaleye bir göz atın:

Erceg-Hurn, DM ve Mirosevich, VM (2008). Modern sağlam istatistiksel yöntemler: Araştırmanızın doğruluğunu ve gücünü en üst düzeye çıkarmanın kolay bir yolu. Amerikalı Psikolog , 63 (7), 591-601. DOI: 10,1037 / 0003-066X.63.7.591

Esas olarak Rand R Wilcox'un (kuşkusuz çok matematiksel olmayan) kitaplarına güveniyorlar:

Wilcox, RR (2001). Modern istatistiksel yöntemlerin temelleri: gücü ve doğruluğu önemli ölçüde artırmak. New York; Berlin: Springer.
Wilcox, RR (2003). Çağdaş istatistiksel tekniklerin uygulanması. Amsterdam; Boston: Akademik Basın.
Wilcox, RR (2005). Güçlü tahmin ve hipotez testlerine giriş. Akademik Basın.


5

Teoriyi pratikle iyi bir şekilde birleştiren bir kitap, Jurečková ve Picek tarafından R ile Sağlam İstatistiksel Yöntemler'dir . Ben de böyle Sağlam İstatistik , Maronna vd. Bununla birlikte, her ikisinin de umduğunuzdan daha fazla matematik olabilir. R'ye odaklanmış daha uygulamalı bir eğitim için, bu BelVenTutorial pdf yardımcı olabilir.


Ah, prof. Jurečková - Üniversitemizde bir öğretmen, olasılıklar nelerdir. Her iki kitabı da kontrol edeceğim. Daha kısa bir belge aramama rağmen (bu sorun benim için çok marjinal olduğu için), biraz daha derinlemesine araştırmak acı vermez. Teşekkürler!
Ondrej

1
Bu küçük bir dünya! En azından yorumundan kopyalayarak yazımı düzelttim ...
jbowman
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.