Makine öğrenmesi ya da parametre tahmininin temel varsayımlarından biri, görünmeyen verilerin eğitim seti ile aynı dağıtımdan geldiğidir. Bununla birlikte, bazı pratik durumlarda, test setinin dağılımı eğitim setinden neredeyse farklı olacaktır.
Ürün tanımlarını yaklaşık 17.000 sınıfa sınıflandırmaya çalışan büyük ölçekli bir çok sınıflandırma problemi için söyleyin. Eğitim seti, eğrilmiş bir sınıf önceliğine sahip olacak, böylece bazı sınıflar birçok eğitim örneğine sahip olabilir, ancak bazılarında sadece birkaç tane olabilir. Bir müşteriden bilinmeyen sınıf etiketli bir test seti verildiğini varsayalım. Eğitim setinde eğitim almış olan sınıflandırıcıyı kullanarak test setindeki her ürünü 17.000 sınıftan birine sınıflandırmaya çalışıyoruz. Test seti muhtemelen sınıf dağılımlarını çarpıtmış olacaktı ancak muhtemelen farklı iş alanlarıyla ilgili olabileceğinden eğitim setinden çok farklıydı. İki sınıf dağılımının çok farklı olması durumunda, eğitimli sınıflandırıcı test setinde iyi çalışmayabilir. Bu, özellikle Naive Bayes sınıflandırıcı ile açık görünüyor.
Eğitim seti ile olasılık sınıflayıcıları için verilen belirli bir test seti arasındaki farkı ele almanın ilkeli bir yolu var mı? SVM'de "transdüktif SVM" nin de benzer bir şey yaptığını duydum. Belirli bir test setinde en iyi performansı gösteren bir sınıflandırıcıyı öğrenmek için benzer teknikler var mı? Daha sonra, bu pratik senaryoda izin verildiği gibi, verilen farklı test setleri için sınıflandırıcıyı yeniden eğitebiliriz.