Verilerin doğrusal olarak ayrılabilir olup olmadığını nasıl bilebilirim?


21

Verilerin birçok özelliği vardır (örneğin 100) ve örnek sayısı 100.000 gibidir. Veriler seyrek. Verileri lojistik regresyon veya svm kullanarak sığdırmak istiyorum. Doğrusal değilse çekirdek hile kullanabilmem için özelliklerin doğrusal mı doğrusal mı olduğunu nasıl bilebilirim?

Yanıtlar:


22

Verilerin doğrusal olarak ayrılabilir olup olmadığını bulmak için çeşitli yöntemler vardır, bazıları bu makalede vurgulanmıştır (1). Veri kümesinde iki sınıf olduğu varsayıldığında, doğrusal olarak ayrılabilir olup olmadıklarını bulmak için birkaç yöntem aşağıdadır:

  1. Doğrusal programlama: Doğrusal ayrılabilirliği sağlayan kısıtlamalara tabi nesnel bir işlevi tanımlar. Uygulama hakkında ayrıntılı bilgiyi burada bulabilirsiniz .
  2. Perceptron yöntemi: Veriler doğrusal olarak ayrılabilirse bir algılayıcının birleşmesi garanti edilir.
  3. Karesel programlama: Karesel programlama optimizasyonu hedef fonksiyonu SVM'de olduğu gibi kısıtlamayla tanımlanabilir.
  4. Hesaplamalı geometri: İki ayrık dışbükey tekne bulabilirse , veriler doğrusal olarak ayrılabilir
  5. Kümeleme yöntemi: k-yolları gibi bazı kümeleme yöntemlerini kullanarak% 100 küme saflığına sahip iki küme bulabilirse, veriler doğrusal olarak ayrılabilir.

    (1): Elizondo, D., Neural Networks, IEEE Transaction on, cilt.17, no.2, s.330-344, Mart 2006 doi: 10.1109 / TNN'de "Doğrusal ayrılabilirlik sorunu: bazı test yöntemleri". 2005.860871


1
Lütfen referans verin (bağlantılar çürüyebilir) ve en azından hangi yöntemlerin kapsandığına dair bir açıklama yapın.
Scortchi - Monica'yı eski durumuna döndürün

2
Teşekkürler. İyi cevap (+1). R paketi safeBinaryRegressionayrıca doğrusal programlama yaklaşımını da uygular.
Scortchi - Monica'yı eski durumuna getirin

Hangi (LP yaklaşımı) kolayca geometrik, hesaplamalı olarak verimli ve genel olarak kullanılabilir olarak yorumlanır (LP rutinleri gibi).
user603

3

2 sınıflı bir sınıflandırma probleminden bahsettiğinizi varsayıyorum. Bu durumda, iki sınıfınızı ayıran bir çizgi vardır ve herhangi bir klasik algoritma birleştiğinde onu bulabilmelidir.

Uygulamada, aynı verileri eğitmek ve test etmek zorundasınız. Böyle bir çizgi varsa,% 100 doğruluk veya% 100 AUC'ye yakın olmalısınız. Böyle bir çizgi yoksa, aynı veriler üzerinde eğitim ve test yapmak en azından bazı hatalara neden olacaktır. Hataların hacmine bağlı olarak, doğrusal olmayan bir sınıflandırıcıyı denemeye değer olabilir veya olmayabilir.


1

mbennw,b ||w||2
s.t ben,(w'xben+b)yben1

mbenns,b s
s.t ben,(w'xben+b)yben1-s
s0

ssben


+1, bu R paketinde uygulanan yöntemin arkasındaki geometrik sezgidirsafeBinaryRegression
user603

-2

Lojistik regresyonu deniyorsunuz ve nasıl çalıştığını görüyorsunuz. Eğer işe yaramazsa, deneyebileceğiniz sonsuz sayıda çekirdek vardır ve yine de çalışmayabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.