Test setinin dağılımı ile eğitim seti arasındaki fark nasıl ele alınır?


23

Makine öğrenmesi ya da parametre tahmininin temel varsayımlarından biri, görünmeyen verilerin eğitim seti ile aynı dağıtımdan geldiğidir. Bununla birlikte, bazı pratik durumlarda, test setinin dağılımı eğitim setinden neredeyse farklı olacaktır.

Ürün tanımlarını yaklaşık 17.000 sınıfa sınıflandırmaya çalışan büyük ölçekli bir çok sınıflandırma problemi için söyleyin. Eğitim seti, eğrilmiş bir sınıf önceliğine sahip olacak, böylece bazı sınıflar birçok eğitim örneğine sahip olabilir, ancak bazılarında sadece birkaç tane olabilir. Bir müşteriden bilinmeyen sınıf etiketli bir test seti verildiğini varsayalım. Eğitim setinde eğitim almış olan sınıflandırıcıyı kullanarak test setindeki her ürünü 17.000 sınıftan birine sınıflandırmaya çalışıyoruz. Test seti muhtemelen sınıf dağılımlarını çarpıtmış olacaktı ancak muhtemelen farklı iş alanlarıyla ilgili olabileceğinden eğitim setinden çok farklıydı. İki sınıf dağılımının çok farklı olması durumunda, eğitimli sınıflandırıcı test setinde iyi çalışmayabilir. Bu, özellikle Naive Bayes sınıflandırıcı ile açık görünüyor.

Eğitim seti ile olasılık sınıflayıcıları için verilen belirli bir test seti arasındaki farkı ele almanın ilkeli bir yolu var mı? SVM'de "transdüktif SVM" nin de benzer bir şey yaptığını duydum. Belirli bir test setinde en iyi performansı gösteren bir sınıflandırıcıyı öğrenmek için benzer teknikler var mı? Daha sonra, bu pratik senaryoda izin verildiği gibi, verilen farklı test setleri için sınıflandırıcıyı yeniden eğitebiliriz.

Yanıtlar:


17

Fark sadece eğitim ve test setlerinde göreceli sınıf frekanslarında yatıyorsa, bu yazıda sunulan EM prosedürünü tavsiye ederim:

Marco Saerens, Patrice Latinne, Christine Decaestecker: Bir Sınıflandırıcının Çıktılarını Yeni Bir Priori Olasılığa Ayarlama: Basit Bir Prosedür. Sinirsel Hesaplama 14 (1): 21-41 (2002) ( www )

Kendim kullandım ve çok iyi çalıştığını gördüm (yine de sınıf üyeliği olasılığı veren bir sınıflandırıcıya ihtiyacınız var).

Her bir sınıf içindeki kalıpların dağılımı değişirse, o zaman sorun "ortak değişken kayması" olarak bilinir ve Sugiyama ve Kawanabe tarafından mükemmel bir kitap vardır . Bu grubun makalelerinin birçoğu on-line olarak mevcuttur, ancak bir kopyasını alabilmeniz için kitabı okumanızı şiddetle tavsiye ederim. Temel fikir, antrenman verilerini antrenman seti ve test seti arasındaki yoğunluk farkına göre ağırlıklandırmaktır (bunun için etiketler gerekli değildir). Ağırlık almanın basit bir yolu, eğitim setinden veya test setinden bir desen çizilip çizilmediğini tahmin etmek için lojistik regresyon kullanmaktır. Zor kısım ne kadar ağırlık uygulanacağının seçilmesidir.

Ayrıca Alex Smola'nın güzel blog gönderisine buradan bakabilirsiniz .


Çok yardımcı işaretçiler sağladığınız için çok teşekkür ederiz!
Fashandge

hiç sorun değil, bu tür "standart dışı" durumlar gerçekten ilginç ve ortak değişken kayma özellikle faydalı bir araştırma alanı.
Dikran Marsupial

1
Bunu bilmek iyi. "Standart dışı" olmasına rağmen pratikte gerçekçidir.
Fashandge

1

Bunu daha ayrıntılı bir şekilde açıklamaya yardımcı olabilecek etki alanı uyarlaması hakkında mükemmel bir eğitim buldum: http://sifaka.cs.uiuc.edu/jiang4/domain_adaptation/survey/da_survey.html Burada bahsedilmeyen bir çözüm dayanıyor ADABOOST’ta. Orijinal makaleye bağlantı: http://ftp.cse.ust.hk/~qyang/Docs/2007/tradaboost.pdf Temel fikir, tren verilerinden öğrenmeyi güncellemek için yeni test verilerinden bazılarını kullanmaktır. .Bu makale, iceburg'un transfer öğrenmeye ilişkin ipucudur - bildiğiniz şeyi bir görevden alıp başka birine uygularsınız.


1
Özellikle bağlantının kesilmesi veya konumunun değişmesi durumunda, ilk öğreticiden bazı önemli özet noktaları ekleyebilir misiniz? Burada "link rot" ile ilgili bir sorunumuz var, bazı eski cevaplarımızın değerinin çalışmayı durduran bağlantılar nedeniyle azaldığı, bu yüzden cevapların mümkün olduğu kadar bağımsız olması güzel bir şey
Silverfish

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.