Alışılagelmiş yolla çapraz doğrulama ve önyükleme dışı yöntemlerin uygulanma biçimindeki önemli bir fark, çoğu kişinin yalnızca bir kez çapraz doğrulama uygulamasıdır (yani, her bir vaka tam olarak bir kez test edilir); tekrarların / yinelemelerin. Bu durumda, çapraz doğrulama, model kararsızlığından dolayı daha yüksek değişikliklere tabidir. Bununla birlikte, örneğin yinelenen / tekrarlanan kat çapraz doğrulama kullanılarak bu önlenebilir . Bu yapılırsa, en azından birlikte çalıştığım spektroskopik veri kümeleri için, her iki yeniden örnekleme şemasının toplam hatası pratikte aynı görünüyor.k
Model dengesizlik tipi varyansı azaltma imkanı olmadığı ve büyük bir karamsar önyargı sergilediği bazı sınıflandırıcılar ve problemler olduğu için, bir kez dışarıda bırakılan çapraz onaylama önerilmez.
.632 önyükleme, karışık olan yeniden örnekleme hatası çok iyimser yanlı olmadığı sürece makul bir iş çıkarır. (Örneğin, çalıştığım veriler için, çok sayıda değişken içeren çok geniş matrisler, modeller ciddi şekilde aşırı yüklenmeye eğilimli olduğu için çok iyi çalışmaz). Bu ayrıca , değişen karmaşıklıktaki modelleri karşılaştırmak için .632 önyükleme kullanmaktan kaçınmam anlamına geliyor . .632+ önyükleme ile deneyimim yok: fazladan takma gerçekleşir ve uygun şekilde algılanırsa, orijinal önyükleme dışı tahminine eşit olur, bu nedenle verilerim için düz obje veya yinelenen / tekrarlanan çapraz onaylama uygularım.
Edebiyat:
- Kohavi, R. .: Doğruluk Tahmini ve Model Seçimi için Doğrulama ve Önyükleme Öncesi Bir Çalışma Yapay Zeka Bildirileri 14. Uluslararası Ortak Konferans, 20 - 25 Ağustos 1995, Montréal, Québec, Kanada, 1995, 1137 - 1145.
(klasik )
Dougherty ve Braga-Neto’nın konuyla ilgili çok sayıda yayını var , örneğin
Dougherty, ER ve diğ. : Güncel Biyoinformatik Sınıflaması için Hata Tahmin Edicilerinin Performansı, 2010, 5, 53-67
Beleites, C. ve ark. : Seyrek veri kümeleri kullanılarak yapılan sınıflandırma hatasını tahmin etmedeki varyans azalması Chemom Intell Lab Syst, 2005, 79, 91 - 100.
Sadece bir kez çapraz doğrulama yapmayı ya da yinelemeyi / yinelemeyi karşılaştırdık. bootstrap, ayrıca çok collinearities ile geniş veri için.
Kim, J.-H .: Sınıflandırma hata oranını tahmin etme: Tekrarlanan çapraz doğrulama, tekrarlanan tutma ve önyükleme, Hesaplamalı İstatistik ve Veri Analizi, 2009, 53, 3735 - 374
Ayrıca, tekrarlanan / yinelenen katlamalı çapraz doğrulama ve Önyükleme dışında aynı performansa sahip (çapraz doğrulama sadece bir kez yapmak yerine).k
Metrik seçimi:
doğruluğu (@FrankHarrell size uygun bir puanlama kuralı olmadığı için kötü bir seçim olduğunu söyleyecektir ), yüksek varyansa tabidir çünkü sınıflayıcıyı sadece 60 Test durumunda söz konusu sınıfa ait% posterior olasılığı. Uygun bir puanlama kuralı, örneğin, regresyondaki ortalama kare hatası ile yakından ilişkili olan Brier'in puanıdır.
: Ortalama kare hata analogları doğruluğu, duyarlılık, özgüllük, öngörü değerleri gibi oranlarda mevcuttur Beleites, C ve diğ. : Kısmi sınıf üyelikleri kullanılarak yumuşak sınıflandırma modellerinin validasyonu: Astrositom dokularının derecelendirilmesinde uygulanan genişletilmiş bir duyarlılık & Co kavramı, Chemom Intell Lab Syst, 2013, 122, 12 - 22; DOI: 10.1016 / j.chemolab.2012.12.003 (ön baskıya bağlantı veren özet sayfa)
Nihai hedefim, belirli bir veri kümesi için bir makine öğrenim yönteminin diğerinden daha üstün olduğunu bir güvenle söyleyebiliriz.
Bunu değerlendirmek için eşleştirilmiş bir test kullanın. Oranları karşılaştırmak için McNemar'ın testine bakın.
Bunun cevabı, metrik seçiminden etkilenecektir. Regresyon tipi hata ölçütleri, eşikli kararların “sertleştirici” adımına sahip olmadığından, genellikle sınıflandırma meslektaşlarına göre daha az farklılık gösterirler. Temelde orantılı olan doğruluk gibi ölçütler , bir sınıflandırıcının diğerine üstünlüğünü sağlamak için çok sayıda test vakasına ihtiyaç duyacaktır .
Fleiss: "Oranlar ve oranlar için istatistiksel yöntemler", oranların eşleştirilmemiş karşılaştırılması için örnekler (ve tablolar) verir . "Büyük örneklem büyüklükleri" ile neyi kastettiğimin bir izlenimini vermek için, bu diğer soruya cevabımdaki resme bir bakın . McNemar gibi eşli testler daha az test vakasına ihtiyaç duyar, ancak IIRC hala en iyi durumda, eşleştirilmemiş test için gerekli olan örneklem büyüklüğünün yarısı (?).
Bir sınıflandırıcının performansını (sertleştirilmiş) karakterize etmek için, genellikle ROC (duyarlılığa karşı özgüllük) veya benzeri gibi en az iki değerden oluşan bir çalışma eğrisine ihtiyacınız vardır .
Uygulamalarım genellikle kısıtlamalara sahip olduğundan, örneğin hassasiyetin spesifiklikten daha önemli olduğu veya bu önlemler üzerindeki belirli sınırların yerine getirilmesi gerektiği için, genel olarak doğruluk veya AUC kullanırım. "Tek sayı" toplam özellikleri için giderseniz, baktığınız modellerin çalışma noktasının gerçekten makul bir aralıkta olduğundan emin olun.
Referans sınıflarına göre birkaç sınıfın performansını özetleyen doğruluk ve diğer performans ölçümleri için, uygulamada karşılaşacağınız sınıfların göreceli sıklığını dikkate aldığınızdan emin olun - ki bu sizin uygulamanızla aynı olması gerekmez. eğitim veya test verileri.
Provost, F. ve ark. : Uluslararası Beşinci Uluslararası Makine Öğrenimi Konferansı Bildirilerinde İndüksiyon Algoritmalarının Karşılaştırılmasında Doğruluk Tahminine Karşı Bir Durum, 1998
düzenleme: çoklu sınıflandırıcıları karşılaştırma
Bir süredir bu problemi düşünüyordum ama henüz bir çözüme ulaşmadım (ya da çözümü olan biriyle de tanışmadım).
İşte şimdiye dek sahip olduğum şey:
Şimdilik, "optimizasyonun tüm kötülüklerin kökeni" olduğuna karar verdim ve bunun yerine çok farklı bir yaklaşım benimsedim:
Eldeki sorunla ilgili uzman bilgisiyle olabildiğince karar verdim. Bu aslında işleri biraz daraltmanıza izin veriyor, bu yüzden model karşılaştırmadan sıklıkla kaçınabilirim. Modelleri karşılaştırmam gerektiğinde, insanlara performans tahmininin belirsizliğini hatırlatan çok açık ve net olmaya çalışıyorum ve özellikle çoklu model karşılaştırmasının AFAIK olduğunu hala çözülmemiş bir sorun olarak görüyorum.
Düzenleme 2: eşleştirilmiş testler
Arasında modelleri, yapabileceğiniz (masif çoklu karşılaştırma durumdur) iki farklı modeller arasında karşılaştırmalar, düzgün bunu nasıl bilmiyorum. Ancak, eşleştirilmiş1n12(n2−n)Testin sadece, tüm modellerin aynı test durumlarıyla aynı şekilde test edilmesi nedeniyle, bir yandan tüm modellerin doğru bir şekilde (veya yanlış) tahmin. Modeller arasında ayrım yapmaya yardımcı olmazlar. Diğer yandan, bazıları tarafından doğru tahmin edilen, ancak diğer modeller tarafından doğru olmayan "ilginç" durumlar vardır. Sadece bu "ilginç" durumların üstünlüğü değerlendirirken dikkate alınması gerekir, ne "kolay" ne de "zor" davalar buna yardımcı olmaz. (McNemar'ın testinin arkasındaki fikri bu şekilde anlıyorum).
modeller arasındaki kitlesel çoklu karşılaştırmalar için , sanırım bir problem, eğer çok şanslı olmadığınız sürece, daha az modeli karşılaştırdığınızda, daha fazla kaygının dışında tutabileceğiniz daha az sayıda model karşılaştırırsınız: genel performans, daha az ve daha az olası hale gelir olmak kadar bir durumda uçlarının her zaman doğru bir şekilde (ya da her zaman yanlış bir şekilde) tarafından tahmin modelleri.nnn