Düzenli olarak artan bir özellik setini yönetme


10

Bir sahtekarlık tespit sistemi üzerinde çalışıyorum. Bu alanda düzenli olarak yeni sahtekarlıklar ortaya çıkmaktadır, böylece modele sürekli olarak yeni özellikler eklenmelidir.

Acaba bununla başa çıkmanın en iyi yolu nedir (geliştirme süreci açısından)? Özellik vektörüne yeni bir özellik eklemek ve sınıflandırıcıyı yeniden eğitmek naif bir yaklaşım gibi görünmektedir, çünkü eski özelliklerin yeniden öğrenilmesi için çok fazla zaman harcanacaktır.

Ben her özellik (veya ilgili özellikleri bir çift) için bir sınıflandırıcı eğitim ve daha sonra genel bir sınıflandırıcı ile bu sınıflandırıcıların sonuçlarını birleştirerek yol boyunca düşünüyorum. Bu yaklaşımın bir dezavantajı var mı? Sınıflandırıcı için algoritmayı nasıl seçebilirim?

Yanıtlar:


4

İdeal bir dünyada, tüm geçmiş verilerinizi saklarsınız ve geçmiş verilerden geriye dönük olarak çıkarılan yeni özellik ile gerçekten yeni bir model çalıştırırsınız. Bunun için harcanan bilgi işlem kaynağının aslında oldukça yararlı olduğunu iddia ediyorum. Gerçekten bir sorun mu var?

Evet, sınıflandırıcılar topluluğu oluşturmak ve sonuçlarını birleştirmek yaygın olarak kabul gören bir tekniktir. Tahmininde sadece yeni özelliklere ve ortalamaya paralel olarak yeni bir model oluşturabilirsiniz. Bu değer katmalıdır, ancak yeni ve eski özellikler arasındaki etkileşimi asla bu şekilde yakalayamazsınız, çünkü hiçbir zaman bir sınıflandırıcıda birlikte görünmezler.


2

İşte sadece mavi dışarı attı yönünde bir görüş - sen faydalanmak ne olur Rastgele Subspace Örnekleme (Sean Owen zaten önerilen aslında gibi) her zaman yeni sınıflandırıcılarla bir demet yetiştirmek dahil rastgele özellik alt kümesini kullanarak yeni özellik görünür ( yeni özellikler kümesi). Biraz eğitim süresinden tasarruf etmek için bu modelleri bir örnek alt kümesinde de eğitebilirsiniz.

Bu şekilde hem yeni hem de eski özellikleri ele alan ve aynı zamanda eski sınıflandırıcılarınızı koruyan yeni sınıflandırıcılara sahip olabilirsiniz. Hatta her sınıflandırıcının performansını ölçmek için çapraz bir doğrulama tekniği kullanarak, şişkin bir modelden kaçınmak için bir süre sonra en kötü performans gösterenleri öldürebilirsiniz.


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.