Elimdeki Fleiss kitabım yok, bu yüzden bütün bunlar IIRC.
Şu anki yorumlarda @ JohnMoeller'ın sorusuna cevap vermek: asıl soru olduğu gibi IMHO'nun yanıtı değil.
Bu yüzden 30 örneğim olduğunu ve her bir örnek için c1 ve c2'yi test ettiğimi ve her bir örnek için her birinin doğruluğunu kaydettiğimi varsayalım.
bunu yaparken, sınıflandırıcı 1'e karşı doğru / yanlış sınıflandırıcı 1'i veren 2 x 2 beklenmedik durum tablosu ile bitirdiniz. McNemar'ın testinin başlangıç noktası budur . Dolayısıyla bu, “bağımsız” oranların karşılaştırılmasından daha güçlü olan (aynı sonlu örneklemden rastgele çizimden geliyorlarsa tamamen bağımsız olmayan) eşleştirilmiş bir karşılaştırma içindir.
Şu anda McNemar'ın "küçük baskısı" nı arayamıyorum, ancak 30 örnek fazla değil. Bu yüzden McNemar'dan Fisher'ın kesin testine (ya da binom olasılıklarını hesaplayan başka bir şeye) geçmek zorunda kalabilirsiniz .
Oranlar:
Bir ve aynı sınıflandırıcıyı 10x, 10 test vakasıyla mı yoksa bir kez tüm 100 vakalarla mı test etmeniz önemli değildir (2 x 2 tablosu sadece tüm test vakalarını sayar).
Orijinal sorudaki her bir sınıflandırıcı için 10 doğruluk tahmini, rastgele uzatma veya 10 kat çapraz doğrulama veya 10x önyükleme dışı bırakma ile elde edilirse, varsayım, genellikle her bir sınıflandırıcı için hesaplanan 10 vekil modelinin eşittir (= aynı doğruluğa sahip), bu nedenle test sonuçları bir araya getirilebilir *. 10 kat çapraz doğrulama için daha sonra test örneği boyutunun toplam test örneği sayısına eşit olduğunu varsayıyorsunuz. Diğer yöntemler için o kadar emin değilim: Aynı vakayı bir defadan fazla test edebilirsiniz. Verilere / sorun / uygulamaya bağlı olarak, bu, yeni bir durumu sınamak kadar bilgi anlamına gelmez.
k
knp^= knσ2( p^) = σ2( kn) = p ( 1 - p )n