Özellik seçimi ve sınıflandırma doğruluğu ilişkisi

10

Sınıflandırıcınız için kullanılabilir özelliklerinizin bir alt kümesini seçme yöntemlerinden biri, bunları bir kritere (bilgi kazanımı gibi) göre sıralamak ve daha sonra sınıflandırıcıyı ve sıralanan özelliklerin bir alt kümesini kullanarak doğruluğu hesaplamaktır.

Örneğin, özellikleriniz A, B, C, D, Eaşağıdaki gibi sıralandıysa D,B,C,E,A, o zaman doğruluğu D, o D, Bzaman D, B, C, daha sonra kullanarak , D, B, C, Edoğruluğunuz azalmaya başlayana kadar hesaplarsınız . Azalmaya başladığında, özellik eklemeyi durdurursunuz.

Örnek1'de (yukarıda), F, C, D, Adoğruluk düzeyinizi düşürdükçe özellikler seçer ve diğer özellikleri bırakırsınız .

Bu metodoloji, modelinize daha fazla özellik eklemenin, belirli bir noktaya kadar ek özelliklerin eklenmesinin doğruluğu azalttığı (örnek 1'de görüldüğü gibi) sınıflandırıcısının doğruluğunu artırdığını varsayar.

Ancak durumum farklı. Yukarıda açıklanan metodolojiyi uyguladım ve daha fazla özellik eklemenin doğruluğu, bir noktaya kadar arttığını gördüm.

Bunun gibi bir senaryoda, özelliklerinizi nasıl seçersiniz? Sadece Fgerisini seçip bırakıyor musunuz? Doğruluğun neden azalıp sonra artacağına dair bir fikriniz var mı?

machine-learning feature-selection

— Pauline
kaynak

4

özellik seçimi, tıpkı makine öğrenimi yöntemleri gibi çeşitli yaklaşımları içerir. Fikir, optimum doğruluk sağlayabilen öngörücü model için en alakalı ancak gereksiz olmayan özelliği korumaktır.

Sizin durumunuzda, özellik seçimi için hangi yöntemi kullandığınızı göremiyorum, ancak özellik bağımlılığının çok değişkenli doğasını dikkate almadığınızı varsayarak. N özelliğiniz olduğunu varsayalım, büyük olasılıkla n en iyi özellikten sonra model doğruluğunuzun düştüğünü, ancak n + k (özelliklerin bilgi kazancına göre azalan sırada olduğu durumlarda n <k <N) eklenerek arttığının muhtemelen nedeni, üst n ve k özelliklerinin bağımlılığı (daha fazla alaka düzeyi ve daha az yedeklilik). Tek değişkenli özellik seçimi, özellikler birbirine bağlı ve birbirini dışlayan olmadığında mutlaka optimum model doğruluğu elde etmez. Felsefi bakış açısından, en uygun özelliklerin kümesi Aristo'nun alıntısına benzemektedir: "Bütün, parçalarının toplamından daha büyüktür"!

Optimal özellik seçimi için, genellikle diğer birçok yaklaşımın arasında özyinelemeli özellik ortadan kaldırmayı (RFE) Rkullanarak özellik seçimi yapabilen bir dil olan Caret paketidir . Maksimum alaka düzeyine, minimum yedekliliğe dayalı özellik seçimi yapmak için mRMRe adlı bir paket de vardır .

En iyi
Samir

— Samir
kaynak

Cepten cevap hazırlıyordum ve önceki iki cevabın oldukça benzer olduğunu fark etmedim! Bunlara yorum yapmama ve bunun yerine ayrı ayrı cevap vermemdeki hatam.

— Samir

Gereksiz özellikler hakkında ne düşünüyorsunuz? Kontrol ettim ve yüksek bilgi kazancı olan 3 özelliğin gerçekten gereksiz olduğunu (birbirleriyle son derece ilişkili olduğunu) doğrulayabilirim. Bu, bu özellikleri birlikte kullanırken doğruluğun neden düştüğünü açıklar: ilk özellikten sonra, ek özellik veri kümeme yeni bir "veri boyutu" eklemez ve bunun yerine gürültü yaratırlar çünkü sınıflandırıcıların zaten bildiği şeyleri "tekrarlarlar" ilk özellik. Bununla birlikte, diğer özellikler, daha az bilgi kazanımı ile yeni bir veri boyutu ekler.

— Pauline

1

Belirli bir soru hakkında

Özelliklerin alt kümesini seçerken belirli bir davranış beklememelisiniz (doğruluğu artırın ve sonra azaltın), çünkü bu tamamen soruna (ve her modele) bağlı olacaktır

Özelliklerin değişken önemini hesaplarken, tüm özelliklerin katkısını aynı anda dikkate alırsınız. Bir özellik alt kümesi seçtiğinizde ve yeni bir model oluşturduğunuzda, sorunun farklı bir temsilini veya modellemesini alırsınız (bu, diğer özellikleri - bilgilendirici veya değil - dikkate almaz).

Şimdi, en iyi sayıda özelliği seçmek istiyorsunuz. Bu aynı zamanda probleminize ve yerine getirmeniz gereken özelliklere veya koşullara bağlı olacaktır. Tahmin doğruluğunu optimize ederken daha az özelliğe sahip olmanız gerekiyorsa, en düşük hatayı elde eden en düşük sayıda özellik seçebilirsiniz ... ve çok benzer hatalara sahip farklı vakalarınız varsa, bir eşik seçin, ikili hata farkı eşik değerden daha düşük olan en iyi durumlar ve birini seçin (örneğin, hataların marjinal olarak aynı olması nedeniyle - örneğin daha az özellikli olan).

Özyinelemeli Unsur Kaldırma'yı düşünün

Kullandığınız yöntem en kararlı yaklaşım olmayabilir. Sınıflandırıcıyı oluşturduğunuz, tüm özellikleri sıraladığınız, en kötüsünü kaldıracağınız ve kalan özellikler üzerinde modeli yeniden oluşturduğunuz bir sarıcı yöntem olan özyinelemeli özellik eliminasyonu (RFE) gibi bir şey denemelisiniz. Sonra yöntemi tekrarlayın. Bu daha kararlı olma eğilimindedir ... ve her seferinde farklı sıralama beklemelisiniz.

Varyans da kritik bir faktördür

Modelin size her alt kümede verdiği gerçek hatanın (veya doğruluğun) ötesinde, her modeli çapraz doğrulama prosedürüyle oluşturmayı ve hem kıvrımların ortalama hatasını hem de bu hataların standart sapmasını dikkate almalısınız. Standart sapma yüksekse, seçilen özellik alt kümesi sabit değildir ve görünmeyen verilerle test yapılırken çok değişme eğilimi gösterir. Bu, modelin beklenen genelleme yeteneklerini değerlendirmek için önemlidir ve modeller (farklı alt kümelerle oluşturulmuş) arasında karar vermede yardımcı olabilir.

— Javierfdr
kaynak

1

Hem gereksiz hem de alakasız özellikleri veri kümenizden kaldırmanız gerekir. Veri kümenizde alakasız ve yedekli özellikler olduğu görülebilir.

Minimum Artıklık Maksimum Alaka Düzeyi Özellik Seçimi (MRMR) algoritmasına bakmanızı öneririm. Tren modelinizden önce çok popüler ve güçlü bir filtredir.

"Ancak, durumum farklı. Yukarıda açıklanan metodolojiyi uyguladım ve daha fazla özellik eklemenin doğruluğu, bir noktaya kadar arttığını gördüm."

Ayrıca mümkündür, ancak bu daha karmaşık bir modele yol açacaktır.

— Rapry
kaynak

1

Genellikle üç özellik seçme algoritması sınıfı vardır.

Verilerin gerçek özelliklerini analiz eden ve her özelliğe herhangi bir model içermeyen bir puan atan filtreleme yöntemleri . Bazı örnekler kat değişimi, öğrenci t-testidir.
Belirli algoritmalarla farklı özellik alt kümelerinin seçildiği sarmalayıcı yöntemler . Daha sonra her seçimi değerlendirmek ve en iyi uygunluk değerine sahip olanı seçmek için sınıflandırma veya regresyon modeline uyuyoruz. Bazı örnekler, özellik seçimi için Genetik Algoritma, özellik seçimi için Monte Carlo optimizasyonu, ileri / geri adım adım seçimdir.
Modelin kendisinin, modelin uygunluğuna en iyi şekilde katkıda bulunan özellikleri seçmesini sağlayan gömülü yöntemler . Tipik olanlar LASSO, sırt regresyonudur.

İşte özellik seçimine giriş detaylarında harika bir makale .

— Jason Feng
kaynak

Mesajda sunulan yöntem bir filtre örneğidir. Filtre tüm özellikleri sıraladı ve konu bu sıralı özelliklerin bir alt kümesinin nasıl seçileceğidir.

— Pauline