Çok sınıflı bir sınıflandırıcı oluşturmak birkaç ikili sınıflayıcıdan daha mı iyidir?


18

URL'leri kategorilere ayırmam gerekiyor. Diyelim ki her URL'yi sıfırlamayı planladığım 15 kategorim var.

15 yollu sınıflandırıcı daha mı iyi? Burada 15 etiket var ve her veri noktası için özellikler oluşturmak.

Ya da 15 ikili sınıflandırıcı oluşturup, diyelim: Film ya da Film Dışı ve bir sınıflayıcı oluşturmak için bu sınıflandırmalardan aldığım sayıları kullanarak, en iyi kategoriyi seçmek, daha iyi olacak mı?

Yanıtlar:


12

Her şeyden önce, kendinize sorununuzun çok etiketli (yani tek bir URL birden fazla sınıfa ait olabilir) olup olmadığını sormalısınız (yani tek bir URL yalnızca bir sınıfa ait olabilir).

Birincisi, ikili etiketleyicilerin bir pili ile gidin, çünkü bu çok etiketli problemleri yapmanın varsayılan bir yoludur.

İkincisi, cevap, verilerinizin nasıl göründüğüne, analizinizin amacı ve hangi yöntemi kullandığınıza bağlıdır - muhtemelen her ikisini de denemeli ve en iyisini seçmelisiniz.
Sadece bazı yöntemlerin (SVM gibi), nasıl tanımlandıkları ve dolayısıyla dahili olarak ikili sınıflandırıcıların pilini kullandıkları için çok sınıflı sınıflandırma yapamayacağını unutmayın.


benim sorun ifadem eski varsayım @mbq düşünüyor. Çok etiketli olduğunu biliyorum. ve evet, dediğin gibi, 15 ikili sınıflandırıcıya gitmeye karar verdim ama yine, en iyi kategoriyi seçmek için onları sıralamam gerekiyor. Bu yüzden, ikili sınıflandırıcıların pilinden elde ettiğim sayıları kullanarak başka bir üst seviye sınıflandırma yapmayı deneyeceğim. Bir sorun görüyor musun?
madCode

SVM'ler çok sınıflı sınıflandırma yapabilir. Yöntem softmax regresyonuna çok benzer (bkz. "Çok sınıflı çekirdek tabanlı vektör makinelerinin algoritmik uygulaması hakkında").
user1149913

4

Bu, verilerinizin nasıl dağıldığına bağlı olacaktır. OP'nin tek bir doğrusal ayırma fonksiyonunun A veya B popülasyonuna veya A'yı ayıran çoklu doğrusal ayırma fonksiyonlarına dayanan birine karar vermek için daha iyi bir sınıflandırıcı olup olmadığını bilmek istediği benzer bir soruya son zamanlarda verilen güzel bir örnek var. Bazıları, iki ayrımcı kullanmanın bu durumda birinden daha iyi olacağını göstermek için çok güzel renkli bir dağılım grafiği verdi. Bağlantı kurmaya çalışacağım.


Dayan. Onu bulmakta zorlanıyorum ama aramaya devam edeceğim.
Michael R.Chernick

Bağlantıyı bulamadığım için üzgünüm. Bir renk solda, diğeri ortada ve üçte bir sağda bir bulut düşünün. İki lineer diskriminant çizgi, orta grubu soldan ve sağdan ayırmak için iyi bir iş çıkarır, ancak tek bir çizgi hiç iyi olmaz. Resim tüm bu kelimelerden daha değerli olacaktır.
Michael R.Chernick

1
@MichaelChernick Aradığınız bağlantı bu mu?

Ne dediğini anlıyorum: bit.ly/M1NydS - tanımladığınız resim bu sunumda karşılaştım. 4 yollu veya 3 yollu sınıflandırma ... doğrudan olabilir. Ama .. 15 yol sınıflandırması yaparsanız hassasiyet / hatırlamanın tehlikeye girip girmeyeceğini merak ediyorum, Dr. Chernick.
madCode

@Procrastinator Bunu bulduğunuz için teşekkür ederim. i bulmak çok sorun yaşıyordu ve ben çok zaman bakarak sopemnding oldu! Baştankara bulmak kolay olurdu ama ben son bir yazı oldu.
Michael R. Chernick

1

Bazı yöntemler, örneğin çok sınıflı, Rastgele Ormanlar, MLP'lerle iyi ilgilenir.

Bu şekilde gitmek istemiyorsanız, ECOC'un probleminiz için 1-vs-All gerçekleştirebilmesi mümkündür, sadece testler söyleyecektir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.