Ampirik Bayes nasıl geçerlidir?


24

Ben de Empirical Bayes'e giriş yapan harika bir kitabı okudum . Kitabın harika olduğunu düşünmüştüm, ancak verilerden öncelikler oluşturmak yanlış hissettim. Bir analiz planı hazırlamanız ve ardından veri toplamanız ve daha önce analiz planınızda belirlediğiniz hipotezi test etmeniz konusunda eğitildim. Bunu daha önce toplayan verilere ilişkin bir analiz yaptığınızda, sizi "önemli" dediğiniz şeye çok daha katı olmak zorunda olduğunuz seçmeli çıkarımlara sokar, burada görün . Makine öğreniminin, "kiraz toplama" adı verilen ve test ve eğitim setleri kurmadan önce belirteçleri toplama anlamına gelen ( İstatistiksel Öğrenmeye Giriş ) benzeyen bir şey olduğunu düşünüyorum .

Daha önce öğrendiklerime göre, bana göre ampirik Bayes zayıf bir temele dayanıyor. İnsanlar onu yalnızca verilerin pasif olarak üretildiği ayarlarda kullanıyorlar mı? Öyleyse, bu haklı olabilir, ancak titiz bir deneysel tasarım yaparken kullanması doğru görünmüyor, ancak Brad Efron'un, genellikle çok NHST alanı olan Biyoistatistik için ampirik Bayes kullandığını biliyorum.

Benim sorularım:

  1. Ampirik Bayes nasıl geçerlidir?
  2. Hangi durumlarda kullanılır?
  3. Hangi durumlarda ampirik Bayes yaklaşımını kullanmaktan kaçınmalısınız ve neden?
  4. İnsanlar onu Biyoistatistik dışındaki alanlarda mı kullanıyorlar ve öyleyse, hangi durumlarda kullanıyorlar?

1
"Geçerli" ne demek? Tanınmış, şimdi vefat eden Bayesian, DV Lindley, “Ampirik bir Bayesian'dan daha az Bayesian yoktur”.
Mark L. Stone

Yanıtlar:


16

Farklı yöntemlerin farklı şeyler için iyi olduğunu hatırlatmanın önemli olduğunu düşünüyorum ve anlamlılık testi istatistik dünyasında tek bir şey değil.

1 ve 3) EB muhtemelen geçerli bir hipotez test prosedürü değildir, ancak olması gerektiği gibi değildir.

Geçerlilik pek çok şey olabilir, ancak Titiz Deneysel Tasarım'dan bahsediyorsunuz, bu nedenle uzun vadeli bir sıklıkta doğru kararı vermenize yardımcı olacak bir hipotez testini tartışıyoruz. Bu, evet / hayır tipi karar vermek zorunda olan insanlar için çoğunlukla yararlı olan kesinlikle ikilik bir evet / hayır tipi rejimdir. Bu konuda çok zeki insanlar tarafından pek çok klasik çalışma var. Bu yöntemlerin, tüm varsayımlarınızın geçerli olduğunu varsaydığı sınırda iyi bir teorik geçerliliği vardır, & c. Ancak, EB kesinlikle bunun için değildi. Klasik NHST yöntemlerinin makinelerini istiyorsanız, klasik NHST yöntemlerine bağlı kalın.


2) EB en çok benzer, değişken miktarları tahmin ettiğiniz problemlerde uygulanır.

Efron kendisi , şu an içinde bulunduğumuza işaret ederek, istatistik tarihinin üç farklı dönemini listeleyen Büyük Ölçekli Çıkarım kitabını açar .

mikroarray ile yazılmış yeni teknolojilerin tek bir bilim ekibinin Quetelet'in imreneceği boyutta veri setleri üretmesine izin verdiği bilimsel seri üretim dönemi. Fakat şimdi veri akışına, istatistikçilerin birlikte cevap vermekle yükümlü olduğu birkaç tahmin veya hipotez testi gibi bir soru sorusu eşlik ediyor; klasik ustaların aklında olan şey değil.

O devam ediyor:

Doğası gereği, ampirik Bayes argümanları, tekrarlayan yapı problemlerini analiz etmede sık ve Bayesyen unsurları birleştirir. Tekrarlanan yapılar, bilimsel seri üretimin, örneğin hasta ve sağlıklı bireyleri aynı anda binlerce gen için mikrodiziler vasıtasıyla karşılaştıran ekspresyon seviyelerinde üstün olduğu şeydir.

Belki EB en başarılı son uygulamadır limma, Bioconductor geçerli . Bu, on binlerce gen arasındaki iki çalışma grubu arasındaki diferansiyel ifadeyi (yani mikrodiziler) değerlendirmek için yöntemler içeren bir R paketidir. Smyth, EB yöntemlerinin normal genetik t-istatistiklerini hesaplamanıza göre daha fazla serbestlik derecesine sahip bir t istatistiği sağladığını gösteriyor. Burada EB kullanımı "tahmin edilen örnek varyanslarının havuzlanmış bir tahmine doğru küçülmesine eşdeğerdir, bu da dizi sayısı küçük olduğunda çok daha istikrarlı çıkarımlara neden olur".

Efron'un yukarıda belirttiği gibi, klasik NHST'nin geliştirildiği şey gibi bir şey değildir ve ortam genellikle onaylayıcıdan daha fazla keşifçidir.


4) Genel olarak EB'yi büzülme yöntemi olarak görebilirsiniz ve büzülmenin yararlı olduğu her yerde yararlı olabilir

limmaX1,...,Xkθ^iJS=(1c/S2)Xi,S2=j=1kXj,cXi

X¯,

büzülme

Tahmin edilecek nicelikler ne kadar benzerse, büzülmenin faydalı olması o kadar muhtemeldir. Bahsettiğiniz kitap beyzbolda vuruş oranlarını kullanıyor. Morris (1983) bir kaç başka uygulamaya işaret etmektedir:

  • Gelir paylaşımı --- sayım bürosu. Birkaç alan için kişi başına nüfus sayımı geliri tahminleri.
  • Kalite güvencesi --- Bell Labs. Farklı zaman dilimleri için arıza sayısını tahmin eder.
  • Sigorta ücreti verme. Sigortalı gruplar veya farklı bölgeler için maruz kalma başına risk tahmin eder.
  • Okul kabulü. Farklı okullar için genel not ortalamasına göre LSAT puanı için ağırlık tahminidir.
  • Yangın alarmları --- NYC. Farklı alarm kutusu konumları için yanlış alarm oranını tahmin eder.

Bunların hepsi paralel tahmin problemleridir ve bildiğim kadarıyla, belirli bir miktarın ne olduğuna dair iyi bir tahmin yapma konusunda daha iyi olduklarını bildiğim kadarıyla evet / hayır kararını bulmaktan daha fazlasıdır.


Bazı referanslar

  • Efron, B. (2012). Büyük ölçekli çıkarım: Kestirim, test etme ve kestirim için ampirik Bayes yöntemleri (Cilt 1). Cambridge Üniversitesi Basını. Chicago
  • Efron, B. ve Morris, C. (1973). Stein'in tahmin kuralı ve rakipleri — ampirik bir Bayes yaklaşımı. Amerikan İstatistik Kurumu Dergisi, 68 (341), 117-130. Chicago
  • James, W. ve Stein, C. (1961, Haziran). Kuadratik kayıplı tahmin. Dördüncü Berkeley sempozyumunun matematiksel istatistik ve olasılık üzerine yaptığı bildiri kitabında (Cilt 1, No. 1961, s. 361-379). Chicago
  • Morris, CN (1983). Parametrik ampirik Bayes çıkarımı: teori ve uygulamalar. Amerikan İstatistik Kurumu Dergisi, 78 (381), 47-55.
  • Smyth, GK (2004). Mikroarray deneylerinde diferansiyel ekspresyonun değerlendirilmesinde doğrusal modeller ve ampirik Bayes yöntemleri. Genetik ve Moleküler Biyolojide İstatistiksel Uygulamalar Cilt 3, Sayı 1, Madde 3.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.