Tabakalı çapraz onaylamayı anlama


54

Tabakalı çapraz doğrulama ile çapraz doğrulama arasındaki fark nedir ?

Wikipedia diyor ki:

Gelen tabakalı k-kat çapraz doğrulama ortalama cevap değeri her kat içinde yaklaşık olarak eşit olduğu şekilde, katlar seçilir. İkili bir sınıflandırma söz konusu olduğunda, bu, her katlamanın kabaca iki sınıf etiket türünün aynı oranlarını içerdiği anlamına gelir.

Ama hala kafam karıştı.

  1. mean response valueBu bağlamda ne anlama geliyor?
  2. # 1 neden önemlidir?
  3. Kişi pratikte 1 numaraya nasıl ulaşır?

Yanıtlar:


43

Veritabanı Sistemleri Ansiklopedisi'ndeki çapraz doğrulama makalesinde:

Tabakalaşma, her katlamanın bütünün iyi bir temsilcisi olmasını sağlayacak şekilde verileri yeniden düzenleme işlemidir. Örneğin, her bir sınıfın verinin% 50'sini içerdiği ikili bir sınıflandırma probleminde, verileri her katlamanın her sınıfın yaklaşık yarısını içerecek şekilde düzenlemek en iyisidir.

Sınıflandırmanın önemi hakkında Kohavi (doğruluk tahmini ve model seçimi için çapraz doğrulama ve önyükleme çalışması) şu sonucu çıkarır :

tabakalaşma genellikle, normal çapraz doğrulama ile karşılaştırıldığında hem yanlılık hem de değişkenlik açısından daha iyi bir şemadır.


5
Sezgisel olarak, bu normal CV'nin neden daha iyi olduğunu açıklayabilir misiniz?
MohamedEzz

Belki de amaçlayabileceğiniz farklı tabakalaşma derecelerinin olduğu ve kıvrımların rasgeleliği ile farklı derecelere müdahale ettikleri bir paragrafı içerebilir. Bazen tek ihtiyacınız olan, her bir katlamanın her bir sınıfından en az bir tane sanat kaydı olduğundan emin olmak. Sonra katları rastgele oluşturabilir, bu koşulun karşılanıp karşılanmadığını ve yalnızca olası olmayan durumlarda katlamaları değiştirip değiştirmediğini kontrol edebilirsiniz.
David Ernst

37

Tabakalaşma, her katlamanın verilerin tüm katmanlarını temsil etmesini sağlamayı amaçlar. Genel olarak bu, sınıflandırma için denetimli bir şekilde yapılır ve her sınıfın (yaklaşık olarak) her test katında eşit şekilde temsil edilmesini sağlamayı amaçlar (elbette eğitim katlamaları oluşturmak için tamamlayıcı bir şekilde birleştirilir).

Bunun arkasındaki sezgi, çoğu sınıflandırma algoritmasının önyargısıyla ilgilidir. Her örneği eşit olarak ağırlıklandırma eğilimindedirler, bu da aşırı temsil edilen sınıfların çok fazla ağırlık alması anlamına gelir (örneğin, F-ölçüsü, Doğruluk veya tamamlayıcı bir hata biçimi). Tabakalaşma, her bir sınıfı eşit ağırlıkta bir algoritma için (ör. Kappa, Bilgilendirme veya ROC AUC'yi optimize etme) veya bir maliyet matrisine göre (örneğin, her sınıfa doğru ağırlıklandırılmış ve / veya her bir yol için bir maliyet veren) çok önemli değildir. misclassifying). Bakınız, örneğin, DMW Powers (2014), F-ölçüsünün ölçemediği şeyler: Özellikler, Kusurlar, Hatalar ve Düzeltmeler. http://arxiv.org/pdf/1503.06410

Tarafsız veya dengeli algoritmalar arasında bile önemli olan belirli bir konu, hiç bir şekilde bir katlama ile temsil edilmeyen bir sınıfı öğreneme ya da test etme eğiliminde olmadıkları ve ayrıca bir sınıfın yalnızca birinin olduğu durumda bile olmalarıdır. Bir katlamada gösterilen genellemenin cevap vermesine izin vermez. değerlendirdi. Bununla birlikte, bu değerlendirme evrensel değildir ve örneğin, tek bir sınıf için neyin normal olduğunu belirlemeye çalışan ve aykırı olanları farklı bir sınıf olarak etkili bir şekilde tanımlayan tek sınıflı bir öğrenmeye uygulanmaz. belirli bir sınıflandırıcı oluşturmayan istatistikleri belirlemekle ilgilidir.

Öte yandan, denetlenen sınıflandırma, test verilerinin etiketlerinin eğitimi etkilememesi gerektiği için değerlendirmenin teknik saflığından ödün vermez, ancak sınıflandırmada eğitim örneklerinin seçiminde kullanılır. Denetimsiz sınıflandırma da, gerçek veriyi değil, sadece veri özniteliklerine bakarak benzer verileri yaymaya dayanarak mümkündür. Örneğin, bkz. Http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 NA Diamantidis, D. Karlis, EA Giakoumakis (1997), Kesinlik doğrulaması için çapraz onaylamanın denetimsiz olarak sınıflandırılması.

Tabakalaşma, sınıflandırma yerine regresyona da uygulanabilir; bu durumda denetlenmeyen tabakalaşma gibi, kimlik yerine benzerlik kullanılır, ancak denetlenen versiyon bilinen gerçek fonksiyon değerini kullanır.

Diğer komplikasyonlar nadir sınıflar ve çoklu sınıflandırmadır; sınıflandırmalar çoklu (bağımsız) boyutlarda yapılır. Burada, tüm boyutlardaki doğru etiketlerin tupları, çapraz doğrulama amacıyla sınıflar olarak ele alınabilir. Ancak, tüm kombinasyonların mutlaka gerçekleşmesi gerekmez ve bazı kombinasyonlar nadir olabilir. Nadir sınıflar ve nadir kombinasyonlar, K testinden en az bir kez fakat K zamandan daha az (K-CV'de) oluşan bir sınıf / kombinasyonun tüm test katlarında temsil edilememesi nedeniyle bir problemdir. Bu gibi durumlarda, bunun yerine bir tabakalanmış destek çıkarma şekli göz önünde bulundurulabilir (beklenen tekrarlamalarla tam boyutta bir eğitim katmanı oluşturmak için değiştirme ile numune alma ve beklenen ve test katlaması için başlangıçta seçilen her sınıfın bir örneği seçildiğinde, test için seçilmemiş% 36.8) .

Çok tabakalı tabakalaşmaya diğer bir yaklaşım, temsili kombinasyon seçimini sağlama arayışı içinde kalmadan her sınıf boyutunu ayrı ayrı tabakalaştırmaya veya önyüklemeye çalışmaktır. L etiketleri ve N örnekleri ve l etiketi için k sınıfı Kkl örnekleri ile, karşılık gelen Dkl etiketli örnek kümesinden (N / LKkl örnekleri) rasgele seçim yapabiliriz (değiştirilmeden). Bu, optimal dengeyi sağlamaz, ancak dengeyi sezgisel olarak arar. Bu, bir seçenek olmadıkça (bazı kombinasyonlar ortaya çıkmadığı ya da ender olmadığı için) etiket seçimini kotaya veya üstüne koyacak şekilde iyileştirilebilir. Sorunlar ya çok az veri olduğu ya da boyutların bağımsız olmadığı anlamına gelir.


5

Ortalama katlanma değeri tüm kıvrımlarda yaklaşık olarak eşittir. Tüm sınıflardaki her sınıfın oranının yaklaşık olarak eşit olduğunu söylemenin başka bir yoludur.

Örneğin, 80 sınıf 0 kayıt ve 20 sınıf 1 kayıt içeren bir veri kümemiz var. Ortalama bir cevap değeri (80 * 0 + 20 x 1) / 100 = 0,2 kazanabiliriz ve tüm katların ortalama cevap değeri 0,2 olmasını isteriz. Bu aynı zamanda EDA'da verilen veri setinin saymak yerine dengesiz olup olmadığını ölçmenin hızlı bir yoludur.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.