Bu benim kendi sorum olmasına rağmen, kendi iki sentimi de cevap olarak yayınlayacağım, böylece bu soruya bakış açılarını ekleyelim. Buradaki sorun, başlangıçta verilere tek parametreli bir dağıtımın takılmasının anlamlı olup olmadığıdır. Tek parametreli bir dağıtım (Poisson GLM veya sabit deneme parametresine sahip bir binom GLM gibi) kullandığınızda, varyans serbest bir parametre değildir ve bunun yerine ortalamanın bir işlevi olarak kısıtlanır. Bu, varyansın bu dağılımın yapısını izlediğinden kesinlikle emin olmadığınız her durumda verilere tek parametreli bir dağıtımın takılmasının tavsiye edilmediği anlamına gelir.
Verilere tek parametreli dağılımların yerleştirilmesi neredeyse her zaman kötü bir fikirdir: Veriler genellikle önerilen modellerin gösterdiklerinden daha karışıktır ve belirli bir tek parametreli modelin elde edebileceğine inanmak için teorik nedenler olsa bile, veriler genellikle aslında bu tek parametreli dağılımın bir dizi parametre değeriyle bir karışımından gelir. Bu genellikle varyans için daha fazla özgürlük sağlayan iki parametreli bir dağıtım gibi daha geniş bir modele eşdeğerdir. Aşağıda tartışıldığı gibi, bu sayı verileri söz konusu olduğunda Poisson GLM için geçerlidir.
Soruda belirtildiği gibi, çoğu istatistik uygulamasında, en azından ilk iki anın serbestçe değişmesine izin veren dağıtım formlarını kullanmak standart uygulamadır. Bu, takılan modelin, bunları model tarafından yapay olarak kısıtlanmak yerine, çıkarılan ortalama ve varyansı dikte etmesine izin verir. Bu ikinci parametreye sahip olmak, modelde sadece bir serbestlik derecesini kaybeder, bu da varyansın verilerden tahmin edilmesinin yararına kıyasla küçük bir kayıptır. Elbette bu akıl yürütme genişletilebilir ve çarpıklığın takılmasına izin vermek için üçüncü bir parametre, basıklık takılmasına izin vermek için dördüncü bir parametre eklenebilir.
Son derece küçük istisnalar dışında, bir Poisson GLM kötü bir modeldir: Benim tecrübelerime göre, verileri saymak için bir Poisson dağılımı yerleştirmek neredeyse her zaman kötü bir fikirdir. Sayım verileri için, verilerdeki varyansın Poisson dağılımına göre 'aşırı dağılması' oldukça yaygındır. Teorinin bir Poisson dağılımına işaret ettiği durumlarda bile, genellikle en iyi model, varyansın serbest bir parametre haline geldiği Poisson dağılımlarının bir karışımıdır . Aslında, sayım verisi durumunda negatif-binomiyal dağılım, rate parametresi için gama dağılımlı bir Poisson karışımıdırbu nedenle, sayıların bir Poisson dağılımı sürecine göre geldiğini düşünmek için teorik nedenler olsa bile, genellikle 'aşırı dağılım' olduğu ve negatif-binomiyal dağılımın çok daha iyi uyduğu durumdur.
Verileri saymak için bir Poisson GLM takma ve daha sonra 'aşırı dağılım' ı kontrol etmek için istatistiksel bir test yapma uygulaması bir anakronizmdir ve neredeyse hiç iyi bir uygulamadır. Diğer istatistiksel analiz formlarında, iki parametreli bir dağıtımla başlamayız, keyfi olarak bir varyans kısıtlaması seçeriz ve daha sonra bir parametreyi dağıtımdan çıkarmaya çalışmak için bu kısıtlamayı test ederiz. İşleri bu şekilde yaparak, aslında model seçimi için kullanılan bir ilk hipotez testinden ve daha sonra gerçek modelden (Poisson veya daha geniş bir dağıtım) oluşan garip bir hibrit prosedürü yaratırız. Birçok bağlamda, bir başlangıç model seçim testinden hibrid modeller yaratmanın bu tür uygulamalarının kötü genel modellere yol açtığı gösterilmiştir.
Benzer bir hibrit yöntemin kullanıldığı benzer bir durum, ortalama farkın T testlerinde bulunmaktadır. Eskiden istatistik derslerinin ilk önce iki popülasyon arasındaki varyansların eşitliğini kontrol etmek için Levene testini (ya da sadece daha crappier "başparmak kuralları") kullanmanızı ve daha sonra veriler bu testi "geçerse" eşit varyans olduğunu varsayan Öğrenci T-testini kullanın ve veriler testi "başarısız" yaparsa, bunun yerine Welch'in T-testini kullanırsınız. Bu aslında çok kötü bir prosedür (bkz. Örneğin burada ve burada)). Ön hipotez testini sıkıştıran ve daha sonra bunu modeli seçmek için kullanan garip bir bileşik testi oluşturmak yerine, varyans üzerinde hiçbir varsayım yapmayan ikinci testi kullanmak daha iyidir.
Sayım verileri için, genellikle negatif-binomiyal veya yarı-Poisson modeli gibi iki parametreli bir model takarak iyi başlangıç sonuçları elde edersiniz. (İkincisinin gerçek bir dağılım olmadığını, ancak yine de makul bir iki parametreli model verdiğini unutmayın.) Daha fazla genelleme gerekiyorsa, genellikle aşırı sayıda sıfırın olduğu sıfır enflasyonun eklenmesi anlamına gelir. veri. Bir Poisson GLM ile sınırlamak yapay ve anlamsız bir model seçimidir ve aşırı dağılım testi yapılarak bu daha iyi değildir.
Tamam, şimdi küçük istisnalar var: Yukarıdakilerin tek gerçek istisnası iki durumdur:
(1) Son derece güçlüsün Bir parametre dağılımı için varsayımların karşılandığına inanmak için bir teori nedeniniz var ve analizin bir kısmı bu teorik modeli verilere karşı test etmektir; veya
(2) Başka (garip) bir nedenden ötürü, analizinizin amacı verilerin varyansı üzerinde bir hipotez testi yapmaktır ve bu nedenle bu varyasyonu bu hipotez kısıtlamasıyla sınırlamak ve daha sonra bu hipotezi test etmek istersiniz.
Bu durumlar çok nadirdir. Sadece veri üreten mekanizma hakkında güçlü bir önsel teorik bilgi olduğunda ortaya çıkma eğilimindedirler ve analizin amacı bu temel teoriyi test etmektir. Bu, verilerin sıkı kontrol edilen koşullar altında (örneğin, fizikte) üretildiği son derece sınırlı bir uygulama aralığında olabilir.