Eğer doğru hesaplamışsam, lojistik regresyon asemptotik olarak t-testi ile aynı güce sahiptir. Bunu görmek için, günlük olasılığını not edin ve Hessian'ın küresel maksimum beklentisini hesaplayın (negatif, ML çözeltisinin varyans-kovaryans matrisini tahmin eder). Her zamanki lojistik parametreleştirme ile uğraşmayın: sadece söz konusu iki olasılıkla parametreleştirmek daha kolaydır. Ayrıntılar, tam olarak bir lojistik regresyon katsayısının önemini nasıl test ettiğinize bağlı olacaktır (birkaç yöntem vardır).
Bu testlerin benzer güçlere sahip olması çok şaşırtıcı olmamalıdır, çünkü ML tahminleri için ki-kare teorisi log olasılığına normal bir yaklaşıma dayanır ve t-testi oranların dağılımına normal bir yaklaşıma dayanır. İşin özü, her iki yöntemin de iki oranın aynı tahminlerini yapması ve her iki tahminin de aynı standart hatalara sahip olmasıdır.
Gerçek bir analiz daha inandırıcı olabilir. Belirli bir gruptaki (A veya B) değerler için genel bir terminoloji kullanalım:
- , 1 olasılığıdır.p
- her bir çekiş setinin boyutudur.n
- , çekiliş setlerinin sayısıdır.m
- veri miktarıdır.N=mn
- (e eşit 0 ya da 1 ) değeridir j inci netice i inci çizer grubu.kij01jthith
- içinde olanların toplam sayısıdır i inci çizer kümesi.kiith
- toplam olan sayısıdır.k
Lojistik regresyon aslında ML tahmincisidir . Logaritması tarafından verilirp
log(L)=klog(p)+(N−k)log(1−p).
Parametresi ile ilgili olarak onun türevleri olanp
∂log(L)∂p=kp−N−k1−p and
−∂2log(L)∂p2=kp2+N−k(1−p)2.
İlk sıfır verim ML tahmin ayarlama p = K / K ve ikinci ifade karşılıklı olarak varyans sonuçlandığı takıp p ( 1 - p ) / K , standart hatanın kare.p^=k/Np^(1−p^)/N
T istatistik çizer setler göre gruplandırılmış verilere dayanarak tahmin edicileri elde edilecektir; yani, araçların farkı (biri A grubundan diğeri B grubundan) bu farkın, standart sapmalardan elde edilen standart hataya bölünmesiyle elde edilir. O zaman belirli bir grup için ortalama ve standart sapmaya bakalım. Ortalama eşittir ML tahmin ile aynıdır, p . Söz konusu standart sapma, çekme araçlarının standart sapmasıdır; yani, k i / n kümesinin standart sapmasıdır . İşte meselenin özü bu yüzden bazı olasılıkları keşfedelim.k/Np^ki/n
Varsayalım verileri tüm çizer halinde gruplanmamış: olduğu, ve m = N . K i beraberlik araçlardır. Bunların örnek varyans eşittir N / ( N - 1 ) katı p ( 1 - p ) . Bundan, standart hatanın standard faktörü dışında ML standart hata ile aynı olduğu anlaşılmaktadır.n=1m=NkiN/(N−1)p^(1−p^) , buN=1800olduğundaesasen1'dir. Bu nedenle - bu küçük farkın dışında - lojistik regresyona dayalı herhangi bir test t-testi ile aynı olacak ve esasen aynı güce ulaşacağız.N/(N−1)−−−−−−−−−√1N=1800
Veri gruplandığında, (gerçek) varyans eşittir p ( 1 - p ) / n istatistikleri için k i toplamını temsil eder , n , Bernoulli ( s varyans, her biri) değişken p ( 1 - p ) . Bu nedenle beklendiği ortalamanın standart hatası m bu değerlerin kareköküdür p ( 1 - p ) / n / m =ki/np(1−p)/nkinpp(1−p)m , daha önce olduğu gibi.p(1−p)/n/m=p(1−p)/N
2 numara, testin gücünün, çekilişlerin nasıl paylaştırıldığına ( ve n'nin m n = N'ye göre nasıl değiştiği ile ), belki de numunedeki ayardan oldukça küçük bir etki dışında önemli ölçüde değişmemesi gerektiğini gösterir. varyans (her grupta çok az sayıda beraberlik kullanacak kadar aptal olmadıkça).mnmn=N
M = 900 , n = 1 (esasen lojistik regresyon) içeren ila p = 0.74'ü (10.000 yineleme ile) karşılaştırmak için sınırlı simülasyonlar ; m = n = 30 ; ve m = 2 , n = 450 (örnek varyans ayarını en üst düzeye çıkarır) bunu taşır: güç ( α = 0.05'dep=0.70p=0.74m=900,n=1m=n=30m=2,n=450α=0.05, tek taraflı) ilk iki durumda 0,59 iken, ayarlama faktörünün önemli bir değişiklik yaptığı (şimdi 1798 veya 58 yerine sadece iki serbestlik derecesi vardır) üçüncü sırada 0,36'ya düşer. ile p = 0.52'yi karşılaştıran başka bir test , sırasıyla 0.22, 0.21 ve 0.15 güçlerini verir: yine, çekilişlere gruplanmadan (= lojistik regresyon) 30 gruba gruplamaya ve önemli bir düşüşe kadar sadece hafif bir düşüş gözlemliyoruz sadece iki gruba.p=0.50p=0.52
Bu analizin ahlakı :
- veri değerlerinizi göreceli olarak küçük "çekme" gruplarından oluşan çok sayıda m'ye böldüğünüzde fazla kaybetmezsiniz .Nm
- Az sayıda grup kullanarak kayda değer gücü kaybedebilirsiniz ( küçüktür, n - grup başına veri miktarı - büyüktür).mn
- En iyi şekilde veri değerlerinizi "çekilişler" olarak gruplamamanız gerekir . Bunları olduğu gibi analiz edin (lojistik regresyon ve t-testi dahil herhangi bir makul testi kullanarak).N