Dağılım hipotezi testi - boş hipotezinizi “kabul edemiyorsanız”, ne anlama geliyor?


26

GOF testi, Kolmogorov-Smirnov, Anderson-Darling, vb. Gibi çeşitli hipotez testleri şu temel biçimi izler:χ2

H0 : Veriler verilen dağılımı takip ediyor.

H1 : Veriler verilen dağıtıma .

Tipik olarak, biri verilen bazı verilerin belirli bir dağıtımı takip ettiği iddiasını değerlendirir ve eğer biri reddederse , veriler verilen dağılım için bazı seviyelerine uygun değildir. αH0α

Peki ya reddetmezsek ? Her zaman birine "kabul " , bu yüzden temel olarak reddetmek için delil yok . Yani, verinin verilen dağılımı takip ettiğini reddettiğimize dair bir kanıt yoktur.H 0 H 0H0H0H0

Öyleyse, benim sorum, verinin belirli bir dağıtımı takip edip etmediğine karar veremememiz durumunda, böyle bir test yapmanın amacı nedir?


1
Sadece "eğer boş hipotezi kabul edemezse, genel olarak test etmenin amacı ne?" Diye cevaplamak çok caziptir. Her durumda, istatistiksel testler karar vermenin tek temeli değildir. Aksine, bir karar veriyoruz ve Tip I / II hatalarının riskini / maliyetini ölçmek için veri kullanıyoruz. Yararlı grafikler, QQplotlar ve öngörücü istatistiklerle yalnızca kalite veya uyum düzeyini özetledik, "boş değeri kabul etme" riski konusunda uygun bir şekilde tavsiye edilirdik.
AdamO

@AdamO Bunu üç yıl önce sorduğumda, lisans üstü matematik (istatistik vurgu) derecesini yeni bitirdim. Şimdi bir MS istatistik programı olmasına rağmen ve bazı profesyonel işler yaptıktan sonra, şimdi anlıyorum. İstatistiklerin birçok lisans programında nasıl öğretildiği gerçekten talihsiz bir durum, ancak ben dalıyorum.
Klarnetçi

Yanıtlar:


37

Geniş (uygunluk testi iyiliği, ancak birçok diğer durumlarda sadece) konuşan, sadece can not herhangi bir örneklem büyüklüğü de boş gelen etkin bir ayırt edilemeyen alternatifler vardır çünkü boş, gerçek olduğu sonucuna varıldı.

İşte iki dağıtım, standart bir normal (yeşil düz çizgi) ve benzer görünümlü bir (% 90 standart normal ve% 10 standart beta (2,2), kırmızı kesikli çizgi ile işaretlenmiştir):

görüntü tanımını buraya girin

Kırmızı olan normal değil. Söz hakkından At yerine kırmızı bir gibi olmayan bir normal dağılımdan olsaydın - biz bu verileri assert normal dağılımdan çizilir edemez böylece biz fark lekelenme şansı var?n=100

Standart fakat betarın daha küçük, eşit fakat daha büyük parametrelere sahip fraksiyonlarının normalden farklı görünmesi daha zor olacaktır.

Ancak, gerçek verilerin neredeyse hiçbir zaman basit bir dağıtımdan kaynaklanmadığı göz önüne alındığında , eğer mükemmel bir kâhin (veya etkili bir şekilde sonsuz örneklem büyüklüğü) olsaydı , verinin temelde her zaman verilerin basit bir dağıtım biçiminden geldiği hipotezini reddederdik.

As George Kutusu ünlü koydu , " Tüm modeller yanlış, ancak bazıları yararlıdır. "

Örneğin, test normalliğini düşünün. Veriler aslında normale yakın bir şeyden gelebilir, ancak bunlar tamamen normal olacak mı? Muhtemelen asla değildirler.

Bunun yerine, bu sınama biçimi için ümit edebileceğiniz en iyi şey, tanımladığınız durumdur. (Örneğin, Normallik testi esasen işe yaramaz mı? Mesajına bakın, ancak burada ilgili noktaları işaret eden başka yayınlar var.)

F

Yukarıdaki görüntüyü tekrar düşünün. Kırmızı dağılım normal değildir ve gerçekten büyük bir numuneyle, ondan bir numuneye dayanan bir normallik testini reddedebiliriz ... ama çok daha küçük bir örneklem boyutunda, regresyonlar ve iki örnek t testi (ve diğer birçok test) Ayrıca) bu normal olmayan şey hakkında biraz endişelenmeyi bile anlamsız kılacak kadar güzel davranacaklar.

μ=μ0

Bazı belirli sapma biçimlerini belirtebilir ve denklik testi gibi bir şeye bakabilirsiniz, ancak bir uyum için iyiliği zordur, çünkü bir dağılımın hipotezli bir şeye yakın ama farklı olmaktan çok farklı yolları vardır. farklılık biçimlerinin analiz üzerinde farklı etkileri olabilir. Alternatif, boşluğu özel bir durum olarak içeren daha geniş bir aile ise, denklik testi daha anlamlı hale gelir (örneğin, gamaya karşı yapılan test) - ve aslında, "iki tek taraflı test" yaklaşımı, "yeterince yakın" bir biçim oluşturmak için bir yol olmalı (ya da gama modelinin doğru olsaydı olurdu, ama aslında sıradan bir uyum testi iyiliği tarafından reddedilmesi neredeyse kesin olurdu,

Uyum testinin iyi olması (ve genellikle daha geniş bir şekilde hipotez testi) gerçekten sadece oldukça sınırlı bir durum için uygundur. İnsanların genellikle cevaplamak istedikleri soru o kadar kesin değildir, ancak biraz daha belirsiz ve cevaplaması daha zordur - ama John Tukey’in dediği gibi, “ Doğru soruya verilen yaklaşık cevabı, çoğu zaman belirsiz olan bir cevaptan çok daha iyi. Her zaman kesin olarak yapılabilecek yanlış bir soru. "

Daha belirsiz bir soruyu cevaplamak için makul yaklaşımlar, mevcut verilerle makul olarak tutarlı olan diğer durumlara kıyasla, istenen analizin düşündüğünüz varsayıma duyarlılığını değerlendirmek için simülasyon ve yeniden örnekleme araştırmalarını içerebilir.

ε


Glen, bu harika bir cevap. "Daha belirsiz bir soruyu cevaplamak için makul yaklaşımlar" konusunda daha fazla kaynak var mı? İnsanların cevap verdikleri çalışılmış örnekleri görmek harika olur "verilerim X amaçlarıma dağıtmak için yeterince yakın mı?" bağlamında.
Stumpy Joe Pete

2
@StumpyJoePete Burada daha belirsiz (ama biraz farklı) bir soruya verilen bir cevaba bir örnek var , simülasyonun kabaca ne tür bir örneklem büyüklüğünde yargılamak için kullanılacağı (üstel, örneğin) veri. Sonra bir takip sorusunda OP, örnek hakkında daha fazla bilgi
edindi

2
(ctd) ... sorun yine simülasyon kullanılarak daha ayrıntılı bir şekilde incelendi . Tabii ki, pratikte kişinin ilk açıklamalarından tahmin etmekten ziyade, kişinin gerçek ihtiyaçlarına göre ayarlandığından emin olmak için “ileri geri” olması gerekiyor.
Glen_b -Reinstate Monica

Teşekkürler! Bu tam olarak aradığım şeydi.
Stumpy Joe Pete

17

P- göründüğünden daha az faydalı değerler. Tahmin, uygunluk değerlendirmesinde bile daha iyi bir yaklaşımdır. Kolmogorov-Smirnov mesafesi bir ölçü olarak kullanılabilir. Hata payı olmadan kullanmak çok zor. Muhafazakar bir yaklaşım, KS modelinin kılavuz modellemeye üst güvenlik sınırını alır. Bu (doğru) bir çok belirsizliğe yol açacaktır; bu da, ilk önce sağlam bir yöntem seçmenin tercih edildiği sonucuna varabilir. Bunu göz önünde bulundurarak ve orijinal amaca geri dönersek, bir ampirik dağılımı 2 olası parametrik formdan daha fazla olanla karşılaştırdığımızda, son yerleştirilmiş dağılımın gerçek varyansı, ampirik kümülatif dağılım fonksiyonundan daha iyi bir kesinliğe sahip değildir. Dolayısıyla, dağıtım seçimini yönlendirecek bir konu teorisi yoksa,


3
Bunun neden reddedildiğinin sebebini anlayamıyorum; Burada bazı harika noktalar var. Aşağı indiren kişinin sorun olarak algıladıklarını açıklamasına yardımcı olur. Belki bir şeyler öğreniriz.
Glen_b


2

Bunun akademik çalışma ile pratik karar verme arasındaki farkı göstermek için mükemmel bir örnek olduğunu düşünüyorum. Akademik ortamlarda (olduğum yerde), başkaları tarafından makul görüldüğü müddetçe, istediğiniz şekilde tartışabilirsiniz. Bu nedenle, aslında birbirimizle sonsuz, bazen dairesel, sinir bozucu bir sertliğe sahip olduk. Bu anlamda, bu insanlara üzerinde çalışacak bir şey sağlar.

Bununla birlikte, gerçekten karar verme konumundaysanız, o zaman cevap kesin bir evet veya hayırdır. Kararsızlık, karar vericinin ününe zarar verecektir. Elbette, bir seçim yapmak sadece istatistikleri değil aynı zamanda bazen de kumar ve inanç sıçramasının bir unsurunu içerir. Özet olarak, bu tür bir egzersiz karar vermek için bir dereceye kadar yararlıdır. Ancak, kararınızı yalnızca bu hipotez testine dayanıp dayanmamak tamamen farklı bir hikayedir.


2
Bu doğru değil IMHO. Okuduğum en iyi kitap, kararın her aşamasına her zaman belirsizliği dahil ederek neden daha iyi kararlar verdiğini açıklayan kitap Nate Silver'in Sinyali ve Gürültüsü . Örneğin, kazanan en iyi poker oyuncuları, belirli bir elin olasılığının 0 ya da 1 olduğuna inanmayanlardır.
Frank Harrell

1
@ FrankHarrell Yol inşa edip etmemek, hisse satın almak veya satın almak gibi soruları nasıl cevaplayacağınızı merak ediyorum. Bu evet ya da hayır sorusudur. Bunlar gerçek karar vericilerin cevaplaması gereken sorular.
LaTeXFan

1
@ FrankHarrell Elbette istatistikler karar vermede yardımcı olurlar. Bununla birlikte, sağlamlık bakış açısıyla, yaptığımız tek şey gerçekliğin yaklaşımıdır. Matematiğin basitçe açıklayamadığı tonlarca şey var. Burası başka araçların içgüdüsel olarak devreye girdiği yer.
LaTeXFan

1
P

1
@FrankHarrell Yorumlarınız için teşekkür ederiz. Bence geri dönülmez kararlar ile ayrıcalıklarınız arasındaki farkınız iyi bir nokta. Temelde, sorunun zaman boyutu ile ilgilidir. Kısa bir süre içinde çoğu karar geri alınamaz. İnsanlar arama yapmak için yerlerine yerleştirildiğinde olan buydu. Öte yandan, daha uzun vadeli bir görüşe sahip olabilirsek, o zaman haklısınız - şartlardaki değişikliklere cevap verebilecek bir sisteme sahip olmak daha iyidir. Öyle olsa bile, maddi veya fiziksel olarak bir miktar hasar kaçınılmazdır.
LaTeXFan

2

Mesele şu ki, saf istatistiksel bakış açısıyla kabul edemezsiniz , fakat pratikte bunu yapıyorsunuz. Örneğin, riske maruz değer veya benzeri önlemler kullanarak bir portföyün riskini tahmin ediyorsanız , portföy iadesi dağılımı oldukça önemlidir. Bunun nedeni riskin dağıtımınızın kuyruğu ile tanımlanmasıdır.

Ders kitabı vakalarında, normal dağılım genellikle örnekler için kullanılır. Bununla birlikte, portföyünüzün geri dönüşlerinde yağ kuyrukları varsa (sık sık yaptıkları), normal dağılım yaklaşımı riskleri hafife alır. Bu nedenle, iadeleri incelemek ve normal bir yaklaşım kullanıp kullanmayacağınıza karar vermek önemlidir. Not, bu mutlaka istatistiksel testler yapmak anlamına gelmez, QQ-arazileri veya başka araçlar olabilir. Bununla birlikte, bir noktada iade analizine ve iade modelinize dayanarak bir karar vermeniz ve normal kullanıp kullanmamanız gerekir.

Dolayısıyla, tüm pratik amaçlar için gerçekten reddetmemek , kesin istatistiksel anlamda olmasa da kabul etmektir. Eğer düzenleyiciler, denetçiler vb normal kabul etmek ve günlük üst yönetime gösterilecek olan hesaplamalar, kullanmak için gidiyoruz reddetmez o kadar yani, bu durumda uzak her anlamda sonuçlar taşımaktadır ya da aptal istatistiksel sonuçtan daha güçlü.


0

Mahkemede hiçbir sanık asla masum değildir. Onlar ya suçlu (masumun boş hipotezini reddeder) ya da suçsuzdur (masumiyet varsayımını reddetmezler).

Kanıt bulunmaması, eksikliğin kanıtı değildir.


-1

Öyleyse, benim sorum, verinin belirli bir dağıtımı takip edip etmediğine karar veremememiz durumunda, böyle bir test yapmanın amacı nedir?

Aklınıza gelebilecek alternatif bir dağıtım (veya dağıtım kümesi) varsa, bu yararlı bir araç olabilir.

Söylerdim: Elimde normal dağılmış olabileceğini düşündüğüm bir takım gözlemlerim var. (Sanırım memnun olduğum gibi benzer bir karakterin gözlemlerini gördüğüm için normal eğriyi makul bir şekilde izledim.) Ayrıca normal eğriyi takip etmeyeceklerini, ancak normal olmayan bazı eğrileri takip edebileceklerini düşünüyorum. (Bunun, normal eğriyi izlemeyen ancak eğri, vb. Gibi veri gövdeleri gördüğümden kaynaklanabileceğini düşünüyorum.) 3 Ardından aşağıdaki satırlar boyunca bir araştırma yapıyorum: Gözlemler varsa normal bir dağılıma göre, ne kadar sıklıkla meydana geldiğim bir ki-kare olur? Sonuç, "Oldukça nadiren sadece yüzde iki defa" dır. Daha sonra belirtilmemiş ve hesaplanmamış bir soruşturma yapıyorum, ancak geçerli bir argümanın tamamlanması için kesinlikle gerekli olduğuna inanıyorum: Dağılım normal değilse, ki-kare farkı ile değerlendirilen bu deneyim oldukça sık meydana gelir. (Yapmam gereken tek şey normal olmayan eğrinin dağılımın gözlenen çarpıklık karakterine sahip olduğunu hayal etmek.) Bu nedenle, normal olay hipotezini, yaşanan olayın daha fazla olacağı düşünülen alternatif hipotezlerden birinin kabul edeceğimi ilkesiyle reddediyorum. sık. Boş hipotezin reddedilmesinin sadece bir alternatifi kabul etmeye istekli olduğu konusunda geçerli olduğunu söylüyorum (bu alternatif, her bakımdan tam olarak kesin olarak tanımlanmamış). ) Bu nedenle, normal hipotezi, deneyimlenen olayın daha sık olacağı düşünülen alternatif hipotezlerden birinin olduğunu kabul ediyorum ilkesiyle reddediyorum. Boş hipotezin reddedilmesinin sadece bir alternatifi kabul etmeye istekli olduğu konusunda geçerli olduğunu söylüyorum (bu alternatif, her bakımdan tam olarak kesin olarak tanımlanmamış). ) Bu nedenle, normal hipotezi, deneyimlenen olayın daha sık olacağı düşünülen alternatif hipotezlerden birinin olduğunu kabul ediyorum ilkesiyle reddediyorum. Boş hipotezin reddedilmesinin sadece bir alternatifi kabul etmeye istekli olduğu konusunda geçerli olduğunu söylüyorum (bu alternatif, her bakımdan tam olarak kesin olarak tanımlanmamış).

Şimdi tarif ettiğim akıl yürütme çizgisi, her zamanki gibi tanımladığımın aksine, kararımın neden üçüncü ve dördüncü davalardaki rutinden farklı olduğunu açıklayacaktır.

Üçüncü durumla ilgili olarak, ki-kare testini denedikten sonra, normallikten hiçbir fark olmadığı hipotezinde, bu kadar büyük ki-kare dağılımının nadir olacağı sonucuna vardım. Şimdiye kadar ikinci durumda tam bu noktada olduğumuz pozisyondayız. Fakat şimdi, orjinal arz normal olmayan normal bir durumsa, bu tecrübenin ortaya çıkma ihtimalini incelememe izin verin. Bu deneyim daha sık gerçekleşir mi? Bunu söylemek için hiçbir sebep yok. Dağılım mükemmel bir şekilde simetriktir, yani, çarpıklık sıfırdır (ortalamanın her iki tarafındaki vakaların tam yüzde 50'si vardı) ve farklı sınıflarda beklenen frekanslardan farklılıkların imleçli bir incelemesi, sistemli olmadığını göstermektedir. tematik, yani artı sapmalar ve eksi sapmalar rastgele sırayla değişir. Böyle bir dağılımın normal olmayan herhangi bir eğriden olası bir şekilde beklenmemesi beklenir. Bu nedenle normal eğrinin reddedilmesi için elimizde bir neden yok.

Benim görüşüme göre, alternatif hipotezin reddedilmesi için alternatif bir emekli olma istekliliği dışında hiçbir geçerli sebep olmadığı yönündedir.

Ki-Kare Testinin Uygulanmasında Karşılaşılan Bazı Yorumlama Zorlukları. Joseph Berkson. Amerikan İstatistik Derneği Dergisi. Vol. 33, No. 203 (Eylül 1938), sayfa 526-536


1
Berkson alıntı / makale bana uygun ve makul görünüyor. Yeterince büyük bir örneklem büyüklüğü ile sadece herhangi bir ölçüm hatası olsa bile varsayılan dağıtımın reddedileceği popüler bir bilgidir. Verilerin varsayılan bir dağıtım altında olma ihtimalinin düşük olduğunu tespit edersek, daha iyi bir seçimin ne olduğunu bulmaya çalışmamız gerekmez mi? Ve eğer bu diğer seçenekleri haklı çıkaramazsak, gerekirse mümkün olan en basit dağıtımı varsaymalıyız? Bunun neden reddedildiğini açıklayan var mı?
Canlı
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.