Test: Sınıflandırıcıya karar sınırını söyleyin


17

Aşağıdaki 6 karar sınırı verilmiştir. Karar sınırları violett çizgileridir. Noktalar ve çarpılar iki farklı veri kümesidir. Hangisinin bir olduğuna karar vermeliyiz:

  • Doğrusal SVM
  • Çekirdek SVM (2. sıra polinom çekirdeği)
  • Algılayıcı
  • Lojistik regresyon
  • Sinir Ağı (10 düzeltilmiş doğrusal birim içeren 1 gizli katman)
  • Sinir Ağı (10 tanh birimli 1 gizli katman)

Çözümlere sahip olmak istiyorum. Ama daha da önemlisi, farklılıkları anlayın. Örneğin c) doğrusal bir SVM olduğunu söyleyebilirim. Karar sınırı doğrusaldır. Ancak, doğrusal SVM karar sınırının koordinatlarını da homojenize edebiliriz. d) Polinom sırası 2 olduğu için çekirdeklenmiş SVM. f) "pürüzlü" kenarlar nedeniyle sinir ağını düzeltti. Belki a) lojistik regresyon: Aynı zamanda doğrusal sınıflandırıcıdır, fakat olasılıklara dayanır.

Karar sınırları


1
Lütfen [self-study]etiketi ekleyin ve wiki'sini okuyun . Sıkışmanıza yardımcı olacak ipuçları vereceğiz.
gung - Monica'yı eski durumuna getirin

Ama teslim etmek zorunda olduğum egzersiz değil. Kendi kendine çalışma direğini okudum, ama bence görevim iyi mi? Kendi düşüncemi de dahil ettim ve bunu da düşündüm. Bence bu örnek diğerleri için de ilginç.
Miau Piau

1
Etiketi eklediğiniz için teşekkür ederiz. Bunun politikamızın uygulanması için bir alıştırma olması gerekmez. Bu iyi bir soru; Ben iptal ve kapatmak için oy vermedi.
gung - Monica'yı eski durumuna döndürün

1
Arsaların ne gösterdiğini açıklamaya yardımcı olabilir. Noktaların eğitim için kullanılan iki veri seti olduğunu düşünüyorum ve çizgi, yeni bir noktanın bir gruba veya başka bir gruba ayrılacağı alanlar arasındaki sınırdır. Bu doğru mu?
Andy Clifton

1
Bu muhtemelen son 5 yılda herhangi bir Stackoverflow / Stackexchange panosunda gördüğüm en iyi soru. Şaşırtıcı bir şekilde, Stackoverflow'da bu soruyu "çok geniş" olduğu için kapatacak olan Javascript kodlu jokeyler olurdu.
stackoverflowuser2010

Yanıtlar:


9

Gerçekten bu soru gibi!

Akla gelen ilk şey doğrusal ve doğrusal olmayan sınıflandırıcılar arasındaki ayrımdır. Üç sınıflandırıcı doğrusaldır (doğrusal svm, algılayıcı ve lojistik regresyon) ve üç parsel doğrusal bir karar sınırı ( A , B , C ) göstermektedir. Yani onlarla başlayalım.

Doğrusal

En göze çarpan doğrusal çizim B eğimidir, çünkü eğimli bir çizgiye sahiptir. Bu, lojistik regresyon ve svm için tuhaftır, çünkü düz bir çizgi (yani noktalardan (tüm)) uzakta olmak suretiyle kayıp fonksiyonlarını daha fazla geliştirebilirler. Dolayısıyla, çizim B algılayıcıdır. Algılayıcı çıkış 0 veya 1 olduğundan, bir sınıfı diğerinden ayıran tüm çözümler eşit derecede iyidir. Bu yüzden daha fazla gelişmiyor.

_A) grafiği ile C arasındaki fark daha belirgindir. Karar sınır arsa içinde biraz daha düşüktür A . Lojistik regresyonun kayıp fonksiyonu tüm noktalar belirlenirken sabit sayıda destek vektörü olarak bir SVM. Mavi noktalardan daha fazla kırmızı haç olduğu için lojistik regresyon kırmızı noktalardan mavi noktalardan daha fazla kaçınır. Doğrusal SVM, mavi destek vektörlerinden olduğu kadar kırmızı destek vektörlerinden uzakta olmaya çalışır. İşte bu yüzden A grafiği lojistik regresyonun karar sınırıdır ve C grafiği doğrusal bir SVM kullanılarak yapılır.

Doğrusal olmayan

Doğrusal olmayan grafiklerle ve sınıflandırıcılarla devam edelim. En keskin sınırlara sahip olduğu için F planının muhtemelen ReLu NN olduğunu gözlemlemenize katılıyorum . Bir ReLu ünitesi çünkü aktivasyon 0'ı aşarsa bir kerede etkinleştirilir ve bu da çıkış ünitesinin farklı bir doğrusal çizgiyi takip etmesine neden olur. Gerçekten çok iyi bakarsanız, hatta yaklaşık 8 yön değişikliğini tespit edebilirsiniz, böylece muhtemelen 2 ünitenin nihai sonuç üzerinde çok az etkisi vardır. Yani F çizimi ReLu NN'dir.

Son iki kişi hakkında pek emin değilim. Hem tanh NN hem de polinom çekirdekli SVM'nin birden fazla sınırı olabilir. Parsel D açıkçası kötü sınıflandırılır. Bir tanh NN, eğrileri farklı bükerek ve dış bölgeye daha fazla mavi veya kırmızı nokta koyarak bu durumu iyileştirebilir. Ancak, bu arsa biraz garip. Sanırım sol üst kısım kırmızı, sağ alt kısım mavi olarak sınıflandırıldı. Fakat orta kısım nasıl sınıflandırılır? Kırmızı veya mavi olmalıdır, ancak daha sonra karar sınırlarından biri çizilmemelidir. Dolayısıyla tek seçenek, dış kısımların bir renk, iç kısmın diğer renk olarak sınıflandırılmasıdır. Bu garip ve gerçekten kötü. Bu yüzden bundan emin değilim.

E çizimine bakalım . Hem kavisli hem de düz çizgilere sahiptir. Derece 2 çekirdekli SVM için, kare mesafenin kademeli olarak 2 sınıftan 1'ini desteklediği için düz çizgi karar sınırına sahip olmak zordur (imkansız olana yakın). Tanh aktivasyon fonksiyonları, gizli durum 0'lardan ve 1'lerden oluşacak şekilde doygun hale gelebilir. O zaman sadece 1 ünite daha sonra durumunu 5 olarak değiştirir. Doğrusal bir karar sınırı elde edebilirsiniz. Yani E grafiğinin tanh NN olduğunu ve bu nedenle D grafiğinin çekirdekleştirilmiş bir SVM olduğunu söyleyebilirim. Zavallı eski SVM için kötü olsa.

Sonuçlar

A - Lojistik Regresyon
B - Perceptron
C - Doğrusal SVM
D - Çekirdeklenmiş SVM (2. sıra polinom çekirdeği)
E - Sinir Ağı (10 tanh üniteli 1 gizli katman)
F - Sinir Ağı (10 düzeltilmiş doğrusal üniteli 1 gizli katman)


Çok güzel bir cevap için teşekkürler. Soruyu da seviyorum. Sınıflandırıcılara yeni bir bakış açısı kazandırır. SVM'nin maksimum marjı vardır ve bu nedenle çizginin verilerin ortasında olması mantıklıdır. Fakat bu neden lojistik regresyon için de geçerli?
Miau Piau

Yani neden düz? Ya da neden ortada?
Pieter

"Düz bir çizgi olarak kayıp işlevlerini daha fazla geliştirebilirler" diyorsunuz - bu neden lojistik regresyon için?
Miau Piau

1
Teorik olarak en iyi çözümdür, çünkü eğimli bir çizgi daha yakın sınıfın doğru olasılığını, daha uzak sınıfın olasılığını arttırdığından daha hızlı azaltacaktır.
Pieter
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.