Belirli bir tahmin tekniği ve parametreleri için bir örnek ne kadar büyük olmalıdır?


12

Belirli bir sayıda parametreye sahip bir modeli tahmin etmek için bir numunenin ne kadar büyük olması gerektiğini anlatmanın bir kuralı veya hatta herhangi bir yolu var mı?

Yani, örneğin, 5 parametreli en küçük kareler regresyonunu tahmin etmek istersem örnek ne kadar büyük olmalı?

Hangi tahmin tekniğini kullandığınız (örn. Maksimum olasılık, en küçük kareler, GMM) veya kaç veya hangi testi yapacağınız önemli mi? Karar verirken örnek değişkenliği dikkate alınmalı mıdır?

Yanıtlar:


11

Önemsiz yanıt, daha az veriye her zaman daha fazla verinin tercih edilmesidir.

Küçük numune boyutu problemi açıktır. Doğrusal regresyonda (OLS) teknik olarak, n = k + 1 olan OLS gibi bir modele sığabilirsiniz, ancak çöpü alırsınız, yani çok büyük standart hatalar. Arthur Goldberger'in Micronumerocity adında bu konuyla ilgili A Ekonometri Kursu kitabının 23. bölümünde özetlenen harika bir makale var .

Yaygın bir buluşsal yöntem, tahmin etmek istediğiniz her parametre için 20 gözleminizin olması gerektiğidir. Her zaman standart hatalarınızın boyutu (ve dolayısıyla önem testi) ile numunenizin boyutu arasında bir değiş tokuştur. Bu, bazılarımızın önem testinden nefret etmesinin bir nedenidir, çünkü muazzam bir örnekle inanılmaz derecede küçük (göreceli) standart bir hata alabilir ve bu nedenle, bir regresyon katsayısının sıfır olup olmadığı gibi naif testlerde anlamsız istatistiksel önem bulabiliriz.

Numune boyutu önemli olmakla birlikte numunenizin kalitesi daha önemlidir, örneğin örneğin popülasyon için genelleştirilebilir olup olmadığı Basit bir Rastgele Numune veya başka bir uygun örnekleme metodolojisi midir (ve analiz sırasında dikkate alınmıştır), ölçüm hatası var mı? , yanıt yanlılığı, seçim yanlılığı vb.


3

Yeniden örnekleme kullanmayı seviyorum: Verilerin bir alt örneği ile kullandığım yöntemi tekrar ediyorum (toplamın% 80'i, hatta% 50'si). Bunu birçok farklı alt örnekle yaparak, tahminlerin ne kadar sağlam olduğuna dair bir fikir edinirim. Birçok tahmin prosedürü için bu, hatalarınızın gerçek (yayınlanabilir) bir tahmini haline getirilebilir.


2

Her zaman yeterince büyük olmalı! ;)

Tüm parametre tahminleri, numune boyutuna göre belirlenen bir tahmin belirsizliği ile birlikte gelir. Bir regresyon analizi gerçekleştirirseniz, giriş veri kümesinden Χ 2 dağılımının yapıldığını hatırlatmanıza yardımcı olur . Modelinizde 5 parametre varsa ve 5 veri noktanız varsa, Χ 2 dağılımının yalnızca tek bir noktasını hesaplayabilirsiniz . Bunu en aza indirmeniz gerekeceğinden, yalnızca bir noktayı minimum tahmin olarak seçebilirsiniz, ancak tahmini parametrelerinize sonsuz hatalar atamanız gerekir. Daha fazla veri noktasına sahip olmak, parametre alanını daha iyi haritalamanıza olanak tanır ve minimum Χ 2 dağılımının daha iyi bir tahminine ve dolayısıyla daha küçük tahminci hatalarına yol açar .

Bunun yerine bir Maksimum Olabilirlik tahmincisi mi kullanacaksınız durum benzer olacaktır: Daha fazla veri noktası, minimum değerin daha iyi tahmin edilmesine yol açar.

Nokta varyansına gelince, bunu da modellemeniz gerekir. Daha fazla veri noktasına sahip olmak, "gerçek" değer etrafındaki noktaların kümelenmesini daha açık hale getirecektir (Merkezi Limit Teoremi nedeniyle) ve büyük, şanslı bir dalgalanmanın o nokta için gerçek değer düşeceği şeklinde yorumlanması tehlikesi. Ve herhangi bir diğer parametreye gelince, nokta varyansı için tahmininiz daha fazla veri noktasına sahip olduğunuzda daha kararlı hale gelecektir.


2

Bu konuda iki temel kural duydum. Birisi, hata teriminde merkezi limit teoremini uyandırmak için yeterli gözlem olduğu sürece, örneğin 20 veya 30, iyi olduğunuzu varsayar. Diğeri, tahmin edilen her eğim için en az 20 veya 30 gözlemin olması gerektiğini savunur. Hedef sayı olarak 20 veya 30'u kullanma arasındaki fark, Merkezi Limit Teoremini makul bir şekilde uyandırmak için yeterli gözlemin ne olduğu konusunda farklı düşüncelere dayanmaktadır.


1
iki cevap benim için çok farklı görünüyor. Biri 20 ila 30, diğeri 20 ila 30 kez eğim diyor. Yani 5 eğiminiz varsa, bir kural size 20 ila 30, diğer 100 ila 150 gözlem gösterir. Bu bana doğru gelmiyor ....
Vivi

1
Bunlar oldukça farklı kurallardır. Bağlantı kesilmesinin, genel model testinin (alt N yönergesi) veya önemli olan ayrı eğimlerin testinin (daha yüksek N yönergesi) önemli olduğunu düşünüp düşünmediğinizden şüpheleniyorum.
russellpierce
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.