İstatistikler: Alfa ve Beta İlişkisi

13

Benim sorum alfa ve beta arasındaki ilişki ve istatistikteki tanımları ile ilgili.

alpha = tip I hata oranı = NULL hipotezinin doğru olduğu dikkate alındığında önem düzeyi

Beta = tip II hata oranı

Alfa alçaltılırsa (özgüllük alfa = 1- özgüllük olarak artar), beta artar (hassasiyet / güç beta = 1 - hassasiyet / güç olarak azalır)

Alfadaki bir değişiklik beta'yı nasıl etkiler? Doğrusal bir ilişki var mı değil mi? Alfa / beta oranı her zaman aynı mı, başka bir deyişle özgüllük / hassasiyet oranı her zaman aynı mı? Cevabınız evet ise, bir bonferroni düzeltmesi kullanarak sadece daha düşük hassasiyete ve daha yüksek özgüllüğe geçiyoruz, ancak hassasiyet / özgüllük oranını değiştirmiyoruz demektir. Bunu söylemek doğru mu?

Güncelleme (Vakaya özel soru):

Belirli bir deneysel tasarım için veriler üzerinde 5 Doğrusal Model çalıştırıyoruz. 0,8'de Gerçek Pozitif Oranımız (duyarlılık / güç) ve 0,7'de Gerçek Negatif Oranımız (özgüllük) var. (Neyin pozitif ve neyin olmaması gerektiğini bildiğimizi hayal edelim.). Şimdi Bonferroni'yi kullanarak önem düzeyini 0,05 / 5 = 0,01'e düzeltirsek. Ortaya çıkan Gerçek Pozitif Oranı (hassasiyet / güç) ve Gerçek Negatif Oranı (Özgüllük) sayısal olarak tahmin edebilir miyiz?

Yardımın için çok teşekkürler.

statistical-significance mathematical-statistics

— Remi.b
kaynak

16

ve ilişkilidir. Konuyu bir tanı testi ile göstermeye çalışacağım. Diyelim ki bir kan markerinin seviyesini ölçen bir teşhis testiniz var. Belli bir hastalığı olan insanların bu markanın sağlıklı insanlara göre daha düşük seviyelere sahip olduğu bilinmektedir. Hemen altında, bir kişinin "hasta" olarak sınıflandırıldığı bir kesme değerine karar vermeniz gerektiği açıktır, oysa bu kesmenin üstünde değerleri olan kişilerin sağlıklı olduğu düşünülmektedir. Bu bloodmarker dağılımı bile ölçüde değişiklik olduğunu, ancak, büyük olasılıklaiçindehasta ve sağlıklı insanlar. Bazı sağlıklı kişiler mükemmel sağlıklı olmalarına rağmen çok düşük kan markeri seviyelerine sahip olabilirler. Ve bazı hasta insanlar, hastalığa sahip olmalarına rağmen yüksek düzeyde kan markerine sahiptir. $\alpha$ $\beta$

Oluşabilecek dört olasılık vardır:

hasta bir kişi doğru olarak hasta olarak tanımlanır (gerçek pozitif = TP)
hasta bir kişi yanlış bir şekilde sağlıklı olarak sınıflandırılır (yanlış negatif = FN)
sağlıklı bir insan doğru olarak sağlıklı olarak tanımlanır (gerçek negatif = TN)
sağlıklı bir kişi yanlış bir şekilde hasta olarak sınıflandırılır (yanlış pozitif = FP)

Bu olasılıklar 2x2 tablo ile gösterilebilir :

               Sick Healthy
Test positive   TP     FP
Test negative   FN     TN

$\alpha$ $\alpha = FP/(FP + TN)$ $\beta$ $\beta = FN/(TP + FN)$ R

alphabeta <- function(mean.sick=100, sd.sick=10, mean.healthy=130, sd.healthy=10, cutoff=120, n=10000, side="below", do.plot=TRUE) {

  popsick <- rnorm(n, mean=mean.sick, sd=sd.sick)
  pophealthy <- rnorm(n, mean=mean.healthy, sd=sd.healthy)

  if ( side == "below" ) {

    truepos <- length(popsick[popsick <= cutoff])
    falsepos <- length(pophealthy[pophealthy <= cutoff])
    trueneg <- length(pophealthy[pophealthy > cutoff])
    falseneg <- length(popsick[popsick > cutoff])

  } else if ( side == "above" ) {

    truepos <- length(popsick[popsick >= cutoff])
    falsepos <- length(pophealthy[pophealthy >= cutoff])
    trueneg <- length(pophealthy[pophealthy < cutoff])
    falseneg <- length(popsick[popsick < cutoff])

  }

  twotable <- matrix(c(truepos, falsepos, falseneg, trueneg), 2, 2, byrow=T)
  rownames(twotable) <- c("Test positive", "Test negative")
  colnames(twotable) <- c("Sick", "Healthy")

  spec <- twotable[2,2]/(twotable[2,2] + twotable[1,2])
  alpha <- 1 - spec
  sens <- pow <- twotable[1,1]/(twotable[1,1] + twotable[2,1])
  beta <- 1 - sens

  pos.pred <- twotable[1,1]/(twotable[1,1] + twotable[1,2])
  neg.pred <- twotable[2,2]/(twotable[2,2] + twotable[2,1])


  if ( do.plot == TRUE ) {

    dsick <- density(popsick)
    dhealthy <- density(pophealthy)

    par(mar=c(5.5, 4, 0.5, 0.5))
    plot(range(c(dsick$x, dhealthy$x)), range(c(c(dsick$y, dhealthy$y))), type = "n", xlab="", ylab="", axes=FALSE)
    box()
    axis(1, at=mean(pophealthy), lab=substitute(mu[H[0]]~paste("=",m, sep=""), list(m=mean.healthy)), cex.axis=1.5,tck=0.02)
    axis(1, at=mean(popsick), lab=substitute(mu[H[1]]~paste("=",m, sep=""), list(m=mean.sick)), cex.axis=1.5, tck=0.02)                                        
    axis(1, at=cutoff, lab=substitute(italic(paste("Cutoff=",coff, sep="")), list(coff=cutoff)), pos=-0.004, tick=FALSE, cex.axis=1.25)
    lines(dhealthy, col = "steelblue", lwd=2)

    if ( side == "below" ) {
      polygon(c(cutoff, dhealthy$x[dhealthy$x<=cutoff], cutoff), c(0, dhealthy$y[dhealthy$x<=cutoff],0), col = "grey65")
    } else if ( side == "above" ) {
      polygon(c(cutoff, dhealthy$x[dhealthy$x>=cutoff], cutoff), c(0, dhealthy$y[dhealthy$x>=cutoff],0), col = "grey65")
    }

    lines(dsick, col = "red", lwd=2)

    if ( side == "below" ) {
      polygon(c(cutoff,dsick$x[dsick$x>cutoff],cutoff),c(0,dsick$y[dsick$x>cutoff],0) , col="grey90")
    } else if ( side == "above" ) {
      polygon(c(cutoff,dsick$x[dsick$x<=cutoff],cutoff),c(0,dsick$y[dsick$x<=cutoff],0) , col="grey90")
    }

    legend("topleft",
           legend=(c(as.expression(substitute(alpha~paste("=", a), list(a=round(alpha,3)))), 
                     as.expression(substitute(beta~paste("=", b), list(b=round(beta,3)))))), fill=c("grey65", "grey90"), cex=1.2, bty="n")
    abline(v=mean(popsick), lty=3)
    abline(v=mean(pophealthy), lty=3)
    abline(v=cutoff, lty=1, lwd=1.5)
    abline(h=0)

  }

  #list(specificity=spec, sensitivity=sens, alpha=alpha, beta=beta, power=pow, positiv.predictive=pos.pred, negative.predictive=neg.pred)

  c(alpha, beta)

}

Bir örneğe bakalım. Hasta insanlar arasındaki kan markerinin ortalama seviyesinin standart 10 sapma ile 100 olduğunu varsayıyoruz. Sağlıklı insanlar arasında ortalama kan seviyesi 140'tır ve standart sapma 15'tir. Klinisyen kesimi 120 olarak ayarlar.

alphabeta(mean.sick=100, sd.sick=10, mean.healthy=140, sd.healthy=15, cutoff=120, n=100000, do.plot=TRUE, side="below")

              Sick Healthy
Test positive 9764     901
Test negative  236    9099

120 puanlık beta ve alfa

$\alpha = 901/(901+ 9099) \approx 0.09$ $\beta = 236/(236 + 9764)\approx 0.024$

              Sick Healthy
Test positive 6909      90
Test negative 3091    9910

Kesme 105

$\alpha$ $\beta$

cutoffs <- seq(0, 200, by=0.1)
cutoff.grid <- expand.grid(cutoffs)

plot.frame <- apply(cutoff.grid, MARGIN=1, FUN=alphabeta, mean.sick=100, sd.sick=10, mean.healthy=140, sd.healthy=15, n=100000, do.plot=FALSE, side="below")

plot(plot.frame[1,]~cutoffs, type="l", las=1, xlab="Cutoff value", ylab="Alpha/Beta", lwd=2, cex.axis=1.5, cex.lab=1.2)
lines(plot.frame[2,]~cutoffs, col="steelblue", lty=2, lwd=2)
legend("topleft", legend=c(expression(alpha), expression(beta)), lwd=c(2,2),lty=c(1,2), col=c("black", "steelblue"), bty="n", cex=1.2)

Farklı kesim değerlerine sahip alfa ve beta grafiği

$\alpha$ $\beta$

Mükemmel kesim

Burada 150 kesilmesinin hastayı sağlıklı olandan ayırdığı anlamında "mükemmel" bir testimiz var.

Bonferroni ayarları

$\alpha$ $\beta$ $\beta$ $0.02$ $0.31$ $\alpha$ $0.09$ $0.01$

— COOLSerdash
kaynak

@ COOLSerdash Vay be güzel cevap! Teşekkür ederim. Örneğinizde, bilinen seviyelerde önemli seviyenin seçimi yapılabilir. Örneğin biyolojide, tedavinin bir etkisi varsa bağımlı değişkeninizin dağılımını bilemezsiniz. Diğer bir deyişle, bir önem düzeyi seçerek Yanlış Pozitif Oranı seçersiniz, ancak Yanlış Negatif oranın nasıl ayarlandığı hakkında hiçbir fikriniz yoktur. Aslında, Gerçek Pozitif ve Negatif Oranların nasıl ayarlandığı hakkında hiçbir fikriniz yok. Bu doğru mu ?

— Remi.b

1

α

$\alpha$

α

$\alpha$

1 - β

$1-\beta$

α

$\alpha$

β

$\beta$

p

$p$

α

$\alpha$

2

Gelecekte başkaları için:

Örnek Büyüklüğü tahmininde Ztotal, alfa karşılık gelen Z ve güce karşılık gelen Z (1-beta) eklenerek hesaplanır. Dolayısıyla, matematiksel olarak, örnek boyutu sabit tutulursa, alfa için Z'nin arttırılması, güç için Z'yi SAME miktarıyla azalttığınız anlamına gelir, örneğin, Zalpha'yı 0,05'ten 0,1'e yükseltmek Zpower'ı 0,05 azaltır.

Fark, alfa için Z'nin iki kuyruklu, beta için Z'nin 1 kuyruklu olmasıdır. Bu nedenle, Z değeri aynı miktarda değişirken, bu Z değerinin karşılık gelme olasılığı% aynı miktarda değişmez.

Misal:

% 80 güç (% 20 beta) ile% 5 alfa (% 95 güven), aynı örnek boyutunu verir

İlişki 1: 1 olsaydı% 95 güç yerine% 93,6 güç (% 6,4 beta) ile% 20 alfa (% 80 güven).

— Vlad
kaynak

1

Alfa ve beta arasında genel bir ilişki yoktur.

Her şey testinize bağlıdır, basit örneği alın:

(Vikipedi)

Konuşma dili kullanımında I. tip hata "masum bir kişiyi mahkum etmek" ve II. Tip hata "suçlu bir kişinin serbest kalmasına izin vermek" olarak düşünülebilir.

Bir jüri ciddi olabilir: tip II hatası yok, bazı tip I Jüri "tür" olabilir: tip I değil ancak tip II A jüri normal olabilir: bazı tip I ve bazı tip II A jüri mükemmel olabilir: hata yok

Uygulamada iki antagonist etkisi vardır:

Testin kalitesi yükseldiğinde, tip I ve tip II hatası bir noktaya kadar azalır. Bir jüri düzeldiğinde, hem masum hem de suçlu insanlar hakkında daha iyi karar verme eğilimindedir.

Bir noktadan sonra testin yapısında temel sorun ortaya çıkar. Tip I veya II testi yapan kişi için daha önemlidir. Jüri örneği ile, tip I hataları daha önemlidir ve bu nedenle hukuk süreci I. tipten kaçınmak için inşa edilir. Herhangi bir şüphe varsa, kişi özgürdür. Sezgisel olarak bu tip II hatada bir büyümeye yol açar.

Bonferroni ile ilgili:

(Tekrar Wikipedia)

Bonferroni düzeltmesi sadece yanlış pozitif olma olasılığını kontrol eder. Düzeltme genellikle yanlış negatif üretme olasılığını artırma ve sonuç olarak istatistiksel gücü azaltma maliyetine gelir. Çok sayıda hipotezi test ederken, bu büyük kritik değerlere neden olabilir.

— lcrmorin
kaynak

Cevabınız için teşekkürler, Yararlı ama yine de benim için bir şey net değil. Yazımı yeni bir soru ekleyerek güncelledim.

— Remi.b