İki örnek dağılımının kuyruklarının karşılaştırılması


13

Kabaca sıfır etrafında ortalanmış iki veri setim var, ancak farklı kuyrukları olduğundan şüpheleniyorum. Dağılımın normal bir dağılımla karşılaştırılması için birkaç test biliyorum, ancak doğrudan iki dağılımı karşılaştırmak istiyorum.

2 dağılım kuyruğunun şişmanlığını karşılaştırmak için basit bir test var mı ?

Teşekkürler
FR


"Fat-tails" etiketi gerçekten anlamlı mı (gelecekteki sorular için)?
chl

@chl Bana söyle, kesinlikle istatistiklerinde senin kadar deneyimli değilim. Ancak IMO, kuyrukların önemini küçümsemek klasik bir önyargıdır. Mandelbrot'un çalışmalarını okudun mu? Petrol kuyrukları finans için uygulanan istatistiklerde çok önemlidir ve 2008'deki kredi krizi, bir kısmı normalliği kabul eden ve bazı korelasyon dağılımının yağ kuyruklarını küçümseyen bazı fiyatlandırma modellerinden geldi. Bunu başka bir başlıkta tartışabiliriz :)
RockScience

1
Bu soru potansiyel olarak ilginçtir, ancak bazı açıklamalar memnuniyetle karşılanacaktır. Bir kuyruk veya her ikisinden de endişe duyuyor musunuz? "Şişmanlığı" nasıl ölçersiniz? (Örneğin, karşılaştırmayı yapmak için iki dağılımı kaydırmaya ve yeniden ölçeklendirmeye hazır mısınız?) "Şişmanlık" daki sapmaları nasıl ölçersiniz? Bir hipotez testi düşünürseniz, alternatif hipotez tam olarak ne olacak?
whuber

@ RockScience, iki dağıtımım var ve sadece kuyrukları karşılaştırmak istiyorum, nasıl yapacağınızı yönettiniz mi? Basıklık hesaplayabileceğinizi biliyorum ama her iki kuyruğun da farklı olduğunu nasıl denediniz?
user2380782

Yanıtlar:



2

Lambda diyerek bir eşik oluşturarak, kuyruk bölgesinde (\ lambda, sonsuzluk) sınırlandırılmış iki dağılımın iki yolunun veya varyansının eşitliğini bu kuyruk bölgesine düşen iki veri setine dayanarak test edebiliriz. Tabii ki, iki örnek t-testi veya F-testi TAMAM olabilir ancak güçlü olmayabilir, çünkü bu kuyruk bölgesinde kısıtlanmış rastgele değişken orijinal olanlar bile normal değildir.


Aşırı değer teorisi bu tür kesik dağılımları inceler: asimptotik olarak, kuyrukların dağılımı genellikle genelleştirilmiş Pareto ailesine aittir . Ayrıca bu dağıtım ailesine veri uydurmaya çalışılabilir ve parametreler karşılaştırılabilir.
Vincent Zoonekynd

@Vincent Bir kuyruk hemen hemen herhangi bir dağılıma sahip olabilir. Aşırı değer teorisi kuyruklar hakkında çok az şey söyler: iid örneklerinin maxima (veya minima) dağılımına odaklanır, bu oldukça farklı bir şeydir.
whuber


1

Ki Kare testi (Uyum İyiliği testi) iki dağılımın kuyruklarını karşılaştırmada çok iyi olacaktır, çünkü iki dağılımı değer kovalarıyla karşılaştırmak için yapılandırılmıştır (grafiksel olarak bir histogram ile temsil edilir). Ve kuyruklar en çok kovadan oluşacaktır.

Bu test tüm dağılıma odaklansa da, sadece kuyruk değil, Chi Square değerinin veya ıraksamasının ne kadarının kuyrukların şişmanlığındaki farktan kaynaklandığını kolayca gözlemleyebilirsiniz.

Elde edilen histogramın testlerle ilgili herhangi bir istatistiksel anlamlılığa göre kuyrukların ilgili şişmanlığı hakkında size görsel olarak çok daha fazla bilgi verebileceğini izleyin. Kuyruk şişmanlığının istatistiksel olarak farklı olduğunu belirtmek gerekir. Görsel olarak gözlemlemek başka bir şeydir. Bir resmin bin kelimeye bedel olduğunu söylüyorlar. Bazen bin sayıya da değer (grafiklerin tüm sayıları kapsadığı göz önüne alındığında mantıklıdır).


3
Bana öyle geliyor ki Chi Square testi kuyruklardaki farklılıkları tespit etmede özellikle zayıf olacak . Kuyruklar birçok bölme ile kaplanmışsa, o zaman - kuyruk oldukları için! - herhangi bir bölmede, ki-kare yaklaşımını geçersiz kılan çok az veri olabilir. Kuyruklar birkaç kutu ile kaplanmışsa, şekillerini ayırt etmek için neredeyse tüm gücü kaybedersiniz ve ayrımcılık yapmayı başardığınız şey çok alakalı veya yararlı olmayabilir. (Burada karşı karşıya olduğumuz bir sorun, "kuyruk şişmanlığı" tanımlanmamış olmasıdır, bu yüzden soru gerçekten cevaplamak için çok belirsiz.)
Whuber

@whuber, yorumunuzla aynı fikirde olup olmadığımı söyleyemem çünkü puanlarınızdan birini tam olarak anlamıyorum. "Ki-kare yaklaşımını geçersiz kılarak" tam olarak ne demek istiyorsun?
Sympa

Ki-kare testi, ki-kare istatistiğinin gerçek dağılımına Normal teori yaklaşımına dayanmaktadır.
Çöp

@whuber, açıklama için teşekkürler. Bunu göz önünde bulundurarak, ilk yorumunuzun ilk ifadesinin umursadığınız kadar incelikli olmayabileceğini hissediyorum ("Chi Square testi kuyruklardaki farkı tanımlamakta özellikle zayıf olacaktır"). Belki de daha uygun ifade "duruma göre değişir ..." olurdu. Bu testin, ilgili kutuları tanımlamaya zorlamanız da dahil olmak üzere birçok değeri vardır. Ve aynı derecede önemli bir histogramın inşasını kolaylaştırır. Bir kutuda 5'ten az gözleminiz varsa, iyi açıkladığınız gibi doğruluk kaybedersiniz.
Sympa

@Gaetan Nüansa dikkat ediyorum, ancak bu durumda karar haklı görünüyor. Dağılımları karşılaştırmak için mevcut diğer birçok yöntemle karşılaştırıldığında, Chi Squared testi iyi sonuç vermez. Verilere göre "ilgili bölmeleri" tanımlarsanız, test geçersizdir. Ayrıca, bir histogram, dağıtım kuyruklarına bakmak için genellikle yararlı bir yol değildir. Bununla birlikte, alternatif önerme konusunda isteksizim çünkü problem kötü tanımlanmış: İki dağıtımın aynı "kuyruk şişmanlığına" sahip olması ne anlama geliyor? Basıklık bir olasılıktır, ancak bu kaba bir önlemdir.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.