Araştırmamda şu genel sorunla karşılaştım: Aynı alan üzerinde iki ve dağılımı ve bu dağılımlardan çok sayıda (ancak sonlu) örnek var. Örnekler bu iki dağılımdan birinden bağımsız ve özdeş olarak dağıtılır (dağılımlar ilişkili olsa da: örneğin, , ve diğer bazı dağılımların bir karışımı olabilir .) Boş hipotez, numunelerin geldiği , alternatif hipotezin numuneler geliyor .
ve dağılımlarını bilerek, numuneyi test ederken Tip I ve Tip II hatalarını karakterize etmeye çalışıyorum . Özellikle, ve bilgisine ek olarak, bir hatayı diğerine bağlamakla ilgileniyorum .
Matematik ile ilgili bir soru sordum. P ve Q arasındaki Toplam Varyasyon mesafesinin hipotez testine olan ilişkisi hakkında bir soru sordum ve kabul ettiğim bir cevap aldım. Bu cevap mantıklı, ama yine de zihnimi Toplam Varyasyon mesafesi ve hipotez testi ilişkisinin arkasındaki daha derin anlamın etrafına, sorunumla ilgili olarak sarmalayamadım. Böylece bu foruma dönmeye karar verdim.
İlk sorum şudur: Toplam varyasyon , Tip I ve Tip II hatalarının olasılıklarının toplamına bağlı olarak kullanılan hipotez test yönteminden bağımsız mıdır? Özünde, numunenin dağılımlardan herhangi biri tarafından üretilmediği sıfır olmayan bir olasılık olduğu sürece, hatalardan en az birinin olasılığı sıfır olmamalıdır. Temel olarak, hipotez test cihazınızın ne kadar sinyal işlemesi yaparsanız yapın hata yapma olasılığından kaçamazsınız. Ve Toplam Varyasyon tam olarak bu olasılığı sınırlar. Anlayışım doğru mu?
Tip I ve II hataları ile altta yatan olasılık dağılımları ve Q arasında başka bir ilişki daha vardır : KL ayrılığı . Dolayısıyla, ikinci sorum şu: KL-diverjans sadece belirli bir hipotez test yöntemine uygulanabilir mi (log-olasılık oranı yöntemi çok fazla ortaya çıkıyor gibi görünüyor) veya genel olarak tüm hipotez test yöntemlerine uygulanabilir mi? Tüm hipotez test yöntemlerinde uygulanabiliyorsa, neden Toplam Varyasyondan bu kadar çok farklı görünüyor? Farklı davranıyor mu?
Ve asıl sorum şu: herhangi bir bağlı kullanmam gerektiğinde öngörülen bir dizi koşul var mı, yoksa bu sadece bir kolaylık meselesi mi? Bir ilişkili kullanılarak elde edilen sonuç ne zaman diğerini kullanarak elde tutulmalıdır?
Bu sorular önemsizse özür dilerim. Ben bir bilgisayar bilimcisiyim (bu benim için süslü bir desen eşleştirme problemi gibi görünüyor :) Ancak, tüm bu hipotez testi malzemelerini öğrenmeye başladım. Gerekirse sorularımı netleştirmek için elimden geleni yapacağım.