Lojistik regresyonda aşırı dağılım


14

Lojistik regresyonda aşırı dağılım kavramını ele almaya çalışıyorum. Tepki değişkeninin gözlenen varyansı binom dağılımından beklenenden daha büyük olduğunda aşırı dağılımın olduğunu okudum.

Fakat bir binom değişkeni sadece iki değere (1/0) sahipse, nasıl bir ortalaması ve varyansı olabilir?

Bernoulli denemelerinin x sayısından elde edilen başarıların ortalamasını ve varyansını hesaplamakta iyiyim. Ama başımı sadece iki değeri olan bir değişkenin ortalaması ve varyansı kavramına saramıyorum.

Herkes sezgisel bir genel bakış sağlayabilir:

  1. Sadece iki değeri olabilen bir değişkende ortalama ve varyans kavramı
  2. Yalnızca iki değere sahip olabilen bir değişkende aşırı dağılım kavramı

1
20 değerini ekleyin , burada 10 0 ve 10 1'dir . Bunu 20'ye bölebilir misiniz? Eğer sd hesaplayabilir y ? y01y
Sycorax, Reinstate Monica'nın

Güzel koymak demek ortalama = 0.5, standart sapma = 0.11 inanıyorum.
luciano

Yanıt değişkenimin 100 başarı ve 5 başarısız olduğunu varsayalım. Bunun aşırı dağılması muhtemel mi?
luciano

luciano, aşırı dağılmış olup olmadığını belirlemek için deneyin birden fazla gerçekleştirilmesi gerekir.
Underminer

Yanıtlar:


10

denemeleri ve başarı olasılığı p olan bir binom rastgele değişken ikiden fazla değer alabilir. Binom rasgele değişken olanlarda başarıların sayısını gösteren N çalışmalarda ve aslında kutu almak K + 1 , farklı değerler ( 0 , 1 , 2 , 3 , . . . , N ). Dolayısıyla, bu dağılımın varyansı, binom varsayımları altında beklenenden fazla ise (belki de aşırı sıfırlar varsa), bu aşırı dağılım durumudur. N-pN-N-+10,1,2,3,...,N-

Aşırı dağılım Bernoulli rasgele değişkeni için anlamlı değildir ( )N-=1

Lojistik regresyon eğrisi bağlamında, bir tahmini küçük değer aralığından "küçük bir dilim" veya gruplamayı, bir binom deneyinin gerçekleştirilmesi olarak düşünebilirsiniz (belki dilimde belirli sayıda başarılar ve başarısızlıklar). Her bir öngörücü değerinde gerçekten çok sayıda denememiz olmamasına ve ham sayımlar yerine oranlara bakmamıza rağmen, yine de bu "dilimlerin" her birinin oranının eğriye yakın olmasını bekliyoruz. Bu "dilimler" eğriden uzakta olma eğilimindeyse, dağılımda çok fazla değişkenlik vardır. Dolayısıyla gözlemleri gruplandırarak, 0/1 verilerine tek tek bakmak yerine binom rastgele değişkenlerin gerçekleşmelerini yaratırsınız.

Aşağıdaki örnek, bu sitedeki başka bir sorudan alınmıştır. Mavi çizgilerin öngörücü değişkenler aralığında beklenen oranı temsil ettiğini varsayalım. Mavi hücreler gözlemlenen örnekleri gösterir (bu durumda okullar). Bu aşırı yayılım nasıl bir grafik temsilini sağlar olabilir bak. Aşağıdaki grafiğin hücrelerini yorumlayan kusurlar olduğunu unutmayın, ancak aşırı dağılımın kendini nasıl gösterebileceği hakkında bir fikir verir.

Aşırı Dağılım Örneği


1
Fakat lojistik regresyon bağlamında aşırı dağılımla ilgileniyorum. Lojistik regresyondaki bir yordayıcı değişkenin her değeri için n deneme yoktur, sadece bir deneme vardır. Ve bu bir denemenin sonucu ya başarılı ya da başarısız
luciano

Doğrusal regresyon bağlamında aşırı dağılımın ardındaki sezgiye değinmek için bir paragraf ekledim.
Underminer

1
Zayıflatıcı, bu cümle ile ne demek istediğini hayal etmeye çalışıyorum: "Eğer bu" dilimler "eğriden uzakta olma eğilimindeyse, dağılımda çok fazla değişkenlik var". Demek istediğimi düşünüyorum: 0.1-0.3 başarı olasılığının olduğu eğri diliminde çok sayıda başarı ve 0.7-0.9 başarı olasılığının olduğu eğri diliminde çok fazla var başarısız olur. Demek istediğin bu mu ve bu aşırı dağılmayı temsil eder mi?
luciano

1
@luciano Doğru fikir bu. Ancak, uyumun ilk etapta gerçekleşmesi için eğrinin çok üstünde ve çok altında bir "dilim" dengesi olması gerektiğini unutmayın. Bu nedenle, 0.7 civarında bir dilimin çok fazla başarıya sahip olduğunu (belki% 100) ve 0.75 civarında bir sonraki dilimde çok az (% 50) olduğunu, sonra 0.80'in çok fazla (% 100) vb. Olduğunu söylemek daha gerçekçi olabilir. beklenenden daha fazla sapma gözlendi.
Underminer

İyi anladım
luciano

7

Başkaları tarafından daha önce belirtildiği gibi, Bernoulli (0/1) değişkeni durumunda aşırı dağılım uygulanmaz, çünkü bu durumda ortalama mutlaka varyansı belirler. Lojistik regresyon bağlamında, bu, sonucunuz ikili ise, bir dağılım parametresini tahmin edemeyeceğiniz anlamına gelir. (Not: Bu, sonuçlarınız ikili olduğu için gözlemler arasındaki potansiyel korelasyonu göz ardı edebileceğiniz anlamına gelmez!)

Öte yandan, senin sonuç oranlarda bir dizi, o zaman yapabilirsiniz Pearson ki-kare istatistiğini (veya sapma olmak bölerek (aynı zamanda daha az olandan olabilir, birden genelde daha olsa) bir dağılım parametresi tahmin ) kalan serbestlik derecelerine göre.

Unutmayın, tamamen ikili bir sonuca sahip lojistik regresyon, binom indeksinin birini aşabileceği (ve gözlemler arasında değişebileceği) daha genel lojistik regresyon modelinin özel bir örneğidir. Dolayısıyla, bir lojistik regresyon modeline uyup uymadığınız sorusu, verilerinizin aşırı dağılmış olup olmadığı sorusuyla ilgisizdir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.