SVM sınıflandırması için hangi sınıflandırıcı daha doğrudur?


10

SVM sınıflandırmasını öğreniyorum ve bir sorunla karşılaşıyorum. Bu ikilemin bir terminolojisi olup olmadığından emin değilim.

Sağlıklı kişiler (her iki cinsiyetten) ve karaciğer kanseri (her iki cinsiyetten) örnekleri de göz önüne alındığında hastayı SVM'ye göre sınıflandırmak istediğimizi varsayalım. Sağlıklı insanlar örneğini sınıf 1 ve kanserli kişileri sınıf 2 olarak etiketlersek, bir ikili SVM eğitebilir ve yeni bir hastayı tahmin etmek için bir sınıflandırıcı 1 elde edebiliriz. Şimdi başka bir senaryoyu düşünün. SVM sınıflandırmasından önce tüm örnekleri cinsiyete ayırdığımızı varsayın. Her cinsiyet için, kanserli hastalara karşı sağlıklı hastaları hala 2 sınıfa etiketliyoruz ve kadın ve erkek örnekleri için sırasıyla sınıflandırıcı 2 ve sınıflandırıcı 3 elde etmek için ikili bir SVM eğitiyoruz. Soru, daha doğru bir tahmin elde etmek için hangi sınıflandırıcı, 1 veya 2, kullanılması gereken yeni bir kadın hasta olup olmadığıdır. İşte sahip olduğum argümanların ikilemi

(1) Numune sayısı fazla olduğunda, tahmin daha doğru olmalıdır. Bu argümana dayanarak, sınıflandırıcı 1 iyi bir seçim gibi görünmektedir.

(2) Bununla birlikte, örnekleri önce kadın ve erkek gruplarına ayırırsak, yeni hasta (bilinmeyen test örneği) kadın olduğu için sınıflandırıcı 2 daha iyi bir seçim gibi görünür.

Bu tür bir ikilemin bir terminolojisi var mı veya daha fazla bilgi veya böyle bir sorunu nasıl çözecek kimse var mı? Bunun yasal bir soru olup olmadığından bile emin değilim ve saf soru için özür dilerim. Teşekkürler


4
Bu genel olarak cevaplanamaz. Belki de cinsiyetin kanseri ne kadar etkilediğini ve kaç örneğiniz olduğunu, hangi kayıp fonksiyonunu kullandığınızı vb. Bilseydik. Çapraz doğrulama kullanarak deneme yapmak çok daha kolaydır.
adrianN

Teşekkürler. Mantıklı. Genel bir kural olmamalı sanırım.
Cassie

1
Bu, "bu sorunu çözmek için ML'yi nasıl kullanmalıyım" hakkında genel bir ML sorusuna benziyor. standart bir cevap yok. farklı yaklaşımları denemek ve hangi stratejilerin en doğru tahmin sonuçlarına götürdüğünü görmek önemli / kabul görmüş / standarttır. genel başlık "soyut ML çerçevede gerçek dünya sorununun temsili" veya kabaca "modelleme" gibi bir şeydir ve iyi std refs kapsamındadır .... Ayrıca bkz. stats.se
vzn

Yanıtlar:


3

Bu işlemi otomatikleştiren Özellik seçimi ve algoritmalara göz atmalısınız . ML'de yeniyseniz ve özellik seçme sürecinin tamamını anlamıyorsanız sorun değil, sadece uygun sezgiyi alın ve işlemi otomatikleştirmek için bir kütüphane kullanabilirsiniz.

Bir Öğrenme algoritması olan anahtar fikri öyle mi o desenleri bulabilirsiniz ..., yapabileceğiniz en yardımcısıdır onu (yedekli olmayan) veri birçok sağlamak ve adım önişleme bir iyi alarak dışarı genellikle şeyler içerdiğini, özellik seçimi ve normalleştirme gibi .

Bir dost bir kayda göre, öğrenme algoritmalarını uygularken, sen olmamalı bunu değişiklikler, birçok kez ihtiyacı kamtlamaktadır, bu durum olmuştur somut ölçümleri yoksa, ona sadece 'seyir' ederek veri kümesini değiştirmek öğrenme o deneyin algoritma, sınıflandırma süreciyle uzaktan 'ilgili' bile görünmeyen özelliklere yöneldi. Verilerinizde herhangi bir değişiklik yapmayı denemeden önce her zaman bir özellik seçim adımı yapmaya çalışın.


1

makine öğrenimi sürecinin bu tür adımı için genel bir başlık, wikipedia'nın "temizleme, normalleştirme, dönüştürme, özellik çıkarma ve seçme, vb." içerdiği veri önişlemidir .

makine öğrenmesinin bir başka yönü de "modeli yaratmak" tır. bu, örneğin kaç sınıfın tespit edileceği, ML yapısının "boyutu" veya "boyutları" ne olacağına ilişkin kararları içerir (örneğin, bir NN'deki nöron sayısının kabaca seçimine benzeyen "SVM kaç tane Çekirdek içerecektir" vb. modeli). maalesef bazı referanslar bu adımı atlama veya "parlama" eğilimindedir. ancak istatistiklerle ortak olduğunu ve bazı istatistik kitaplarının iyi bir açıklamaya sahip olacağını unutmayın.

ML tipi yaklaşımlarda, hem etkili önişleme hem de modellemeyi belirlemek için güçlü bir yinelemeli / geri bildirim / evrimsel süreç olması gelenekseldir. deneyci çeşitli önişleme ve modelleme fikirlerini dener ve daha başarılı olanlara doğru hareket eder. genel kural "tahminler ne kadar iyi olursa, ön işleme ve modelleme de o kadar doğru olur (ve muhtemelen gerçekçi olarak gerçekçi olur )", ama aynı zamanda aşırı sığmanın dikkatli bir şekilde göz ardı edildiği göz önüne alındığında .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.