Kullback-Leibler diverjansına karşı hipotez testi ve toplam varyasyon mesafesi


10

Araştırmamda şu genel sorunla karşılaştım: Aynı alan üzerinde iki P ve dağılımı ve Qbu dağılımlardan çok sayıda (ancak sonlu) örnek var. Örnekler bu iki dağılımdan birinden bağımsız ve özdeş olarak dağıtılır (dağılımlar ilişkili olsa da: örneğin, Q , P ve diğer bazı dağılımların bir karışımı olabilir .) Boş hipotez, numunelerin geldiği P, alternatif hipotezin numuneler geliyor Q.

P ve dağılımlarını bilerek, numuneyi test ederken Tip I ve Tip II hatalarını karakterize etmeye çalışıyorum Q. Özellikle, P ve bilgisine ek olarak, bir hatayı diğerine bağlamakla ilgileniyorum Q.

Matematik ile ilgili bir soru sordum. P ve Q arasındaki Toplam Varyasyon mesafesinin hipotez testine olan ilişkisi hakkında bir soru sordum ve kabul ettiğim bir cevap aldım. Bu cevap mantıklı, ama yine de zihnimi Toplam Varyasyon mesafesi ve hipotez testi ilişkisinin arkasındaki daha derin anlamın etrafına, sorunumla ilgili olarak sarmalayamadım. Böylece bu foruma dönmeye karar verdim.PQ

İlk sorum şudur: Toplam varyasyon , Tip I ve Tip II hatalarının olasılıklarının toplamına bağlı olarak kullanılan hipotez test yönteminden bağımsız mıdır? Özünde, numunenin dağılımlardan herhangi biri tarafından üretilmediği sıfır olmayan bir olasılık olduğu sürece, hatalardan en az birinin olasılığı sıfır olmamalıdır. Temel olarak, hipotez test cihazınızın ne kadar sinyal işlemesi yaparsanız yapın hata yapma olasılığından kaçamazsınız. Ve Toplam Varyasyon tam olarak bu olasılığı sınırlar. Anlayışım doğru mu?

Tip I ve II hataları ile altta yatan olasılık dağılımları ve Q arasında başka bir ilişki daha vardır : KL ayrılığı . Dolayısıyla, ikinci sorum şu: KL-diverjans sadece belirli bir hipotez test yöntemine uygulanabilir mi (log-olasılık oranı yöntemi çok fazla ortaya çıkıyor gibi görünüyor) veya genel olarak tüm hipotez test yöntemlerine uygulanabilir mi? Tüm hipotez test yöntemlerinde uygulanabiliyorsa, neden Toplam Varyasyondan bu kadar çok farklı görünüyor? Farklı davranıyor mu?PQ

Ve asıl sorum şu: herhangi bir bağlı kullanmam gerektiğinde öngörülen bir dizi koşul var mı, yoksa bu sadece bir kolaylık meselesi mi? Bir ilişkili kullanılarak elde edilen sonuç ne zaman diğerini kullanarak elde tutulmalıdır?

Bu sorular önemsizse özür dilerim. Ben bir bilgisayar bilimcisiyim (bu benim için süslü bir desen eşleştirme problemi gibi görünüyor :) Ancak, tüm bu hipotez testi malzemelerini öğrenmeye başladım. Gerekirse sorularımı netleştirmek için elimden geleni yapacağım.

Yanıtlar:


8

Edebiyat: İhtiyacınız olan cevabın çoğu kesinlikle Lehman ve Romano'nun kitabında . Ingster ve Suslina'nın kitabı daha gelişmiş konuları ele alıyor ve size ek cevaplar verebilir.

L1TVnL1

Geliştirme: Şunu belirtelim:

  • g1(α0,P1,P0)α0P0P1
  • g2(t,P1,P0)t(1t)P0P1

L1L1L1TV

L1χ2P1P0Pi=pin i=0,1p1p0nh(P1,P0)h(p1,p0)KLχ2L1

A1(ν1,ν0)ν1ν2

A1(ν1,ν0)=min(dν1,dν0)

Teorem 1 Eğer(TV dağıtımının yarısı), sonra |ν1ν0|1=|dν1dν0|

  • 2A1(ν1,ν0)=(ν1+ν0)|ν1ν0|1 .
  • g1(α0,P1,P0)=supt[0,1/α0](A1(P1,tP0)tα0)
  • g2(t,P1,P0)=A1(tP0,(1t)P1)

Kanıtı buraya yazdım .

Teoremi 2 için ve olasılık dağılımları: P1P0

12|P1P0|1h(P1,P0)K(P1,P0)χ2(P1,P0)

Bu sınırlar iyi bilinen birkaç istatistikçiden kaynaklanmaktadır (LeCam, Pinsker, ...). ; Hellinger mesafesi, KL sapması ve ki-kare sapmasıdır. Hepsi burada tanımlanmıştır . ve bu sınırların ispatı verilir (başka şeyler Tsybacov kitabında bulunabilir ). Ayrıca Hellinger tarafından neredeyse alt sınırı olan bir şey var ...hKχ2L1


1
Cevabınız için teşekkür ederim, şimdi sindirmeye çalışıyorum. Benim sorunumda Tip I hataya izin verdim. Ayrıca iki dağıtım ve . Aralarında TV (KL yanı sıra) biliyorum. Yani, TV'nin Tip II hatası üzerinde KL'den daha sıkı bir alt sınır verdiğini söylüyorsunuz, yani mümkün olduğunca alt sınırın sıkı olmasını arzu edersem analizim için TV'yi kullanmalıyım? P0P1
MBM

Ve Lehmann ve Romano kitap önerisi için teşekkür ederim, çok yararlı görünüyor ve başımın üzerinde çok fazla değil. Ayrıca, kütüphanemin bir kopyası var! :)
MBM

Ne Teorem 1 buraya söylüyor tv (veya L1) için eşitlik ile ilgilidir @Bullmoose g_2 veya G_1 (hataların asgari toplamı veya kontrollü tip I ile II hatayı girin) eşitliği ile ilgilidir. Burada eşitsizlik yok. Eşitsizlikler, L1'den Kullback'e gitmeniz gerektiğinde ortaya çıkar. A1
robin girard

Ne yazık ki, ölçüm teorisinde çok az bir geçmişim var. Ben tür anlamak düşünmek ve , ama ben net değilim . Diyelim ki iki Gauss dağılımı var. Aralarındaki TV (veya L1) Ama ne olur olabilir mi? Tanımdan ...g1g2A1
12π|exp(x2/2σ12)σ1exp(x2/2σ22)σ2|dx
A1
12πmin(exp(x2/2σ12)σ1,exp(x2/2σ22)σ2)dx
MBM

... ancak bu ilk madde işaretinden nasıl eşleşir? (ν1+ν2)
MBM

1

İlk sorunuzun cevabı: Evet, bir eksi toplam varyasyon mesafesi Tip I + Tip II hata oranlarının toplamında bir alt sınırdır. Bu alt sınır, hangi hipotez test algoritmasını seçerseniz seçin geçerlidir.

Gerekçe: Eğer Math.SE bindi cevap bu gerçeğin standart kanıt verir. Bir hipotez testi düzeltin. Let bu test sıfır hipotezini (örneğin bir kümesi her zaman mevcut olmalı) reddedecektir hangi sonuçların kümesi göstermek. Daha sonra Math.SE cevabındaki hesaplama alt sınırı kanıtlar.A

(Açıkçası, bu akıl yürütme çizgisi, hipotez testinizin belirleyici bir prosedür olduğunu varsayar. Ancak rastgele prosedürleri göz önünde bulundursanız bile, aynı sınırın hala geçerli olduğunu göstermek mümkündür.)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.