Uygulamanız için en iyi 2 sınıfı sınıflandırıcı nedir? [kapalı]


Yanıtlar:


14

Rastgele orman

  • Karmaşık yapı / doğrusal olmayan ilişkiyi kolayca yakalar
  • değişkenlerin ölçeğine değişmez
  • kategorik öngörücüler için kukla değişkenler oluşturmaya gerek yok
  • değişken seçim çok gerekli değildir
  • takması nispeten zor

Aptamer aktif motif seçimi, orman zemin nem tahmini, basamak OCR, çok spektrumlu uydu görüntü analizi, müzikal bilgi alımı,

13

Lojistik Regresyon :

  • hızlı ve çoğu veri kümesinde iyi performans
  • neredeyse ayarlanacak parametre yok
  • Hem ayrık / sürekli özellikleri işler
  • model kolayca yorumlanabilir
  • (gerçekten ikili sınıflandırmalarla sınırlı değildir)

Belki ayarlanacak hiçbir parametre yoktur, ancak lineer olmamaya neden olmak için gerçekten sürekli değişkenlerle (dönüşümler, spline'lar) çalışmak gerekir.
B_Miner

12

Destek vektör makinesi


SVM hakkında gerçekten özel bir şey yoktur , bunun dışında kullanıcıyı düzenlileştirme hakkında düşünmeye zorlar. En pratik problemler için [çekirdek] sırt regresyonu da işe yarar.
Dikran Marsupial

2
@dikran Ben SVM büyük bir sınıflandırıcı olduğunu düşünüyorum çünkü aykırı ve seyrek ve sağlam - bu Lojistik Regresyon için doğru değil! ve bu yüzden SVM son teknoloji sınıflandırıcıdır. Bir sorun olabilir tek sorun - zaman karmaşıklığı - ama onun ok düşünüyorum.
suncoolsu

@ suncoolsu Eğer azlık istiyorsanız, LASSO ile düzenli lojistik regresyondan SVM ile olduğundan daha fazla azlık elde edersiniz. SVM'nin seyrekliği, kayıp işlevinin bir yan ürünüdür, bu nedenle, seyrekliğin bir tasarım hedefi olduğu bir algoritma ile elde ettiğiniz kadar fazla alamazsınız. Ayrıca çoğu zaman hiper-parametrenin optimal değeri ile (örn. Çapraz doğrulama yoluyla seçilen) SVM'nin kaybolmasının çoğu. SVM, aykırı değerlere karşı düzenli lojistik regresyondan daha sağlam değildir - çoğunlukla menteşe kaybı değil, önemli olan düzenlemedir.
Dikran Marsupial

@Dikran - benim açımdan - bir tür ceza önemlidir. Bunu
Priors'i

1
@ suncoolsu Bu durumda, SVM büyük bir sınıflandırıcı değildir, sırt regresyonu, düzenli lojistik regresyon, Gauss Süreçleri gibi birçok düzenli sınıflandırıcıdan sadece biridir. SVM'nin ana yararı, hesaplamalı öğrenme teorisinden çekilmesidir. Uygulamada, diğer kayıp fonksiyonlarının daha üstün olabileceği olasılıksal sınıflandırıcıya ihtiyacınız olup olmadığı gibi diğer hususlar daha önemlidir. IMHO, daha geniş çekirdek yöntemleri ailesinden ziyade SVM'ye çok fazla dikkat ediliyor.
Dikran Marsupial

7

Gürültülü verilerle denetlenen sorunlar için düzenli ayrımcılık

  1. Hesaplama açısından verimli
  2. Verilerde gürültü ve aykırı değerlere dayanıklı
  3. Hem doğrusal diskriminant (LD) hem de kuadratik diskriminant (QD) sınıflandırıcılar aynı uygulamadan LD sınıflandırıcı için '[lambda, r]' ila '[1 0]' ve '[0 0]' ayar parametrelerini ayarlayarak elde edilebilir QD sınıflandırıcı - referans amaçlı çok kullanışlıdır.
  4. Modelin yorumlanması ve dışa aktarılması kolaydır
  5. Sınıf kovaryans matrislerinin iyi tanımlanamayacağı seyrek ve 'geniş' veri kümeleri için iyi çalışır.
  6. Her sınıf için diskriminant değerlere softmax fonksiyonu uygulanarak her bir numune için arka sınıf olasılık tahmini tahmin edilebilir.

Friedman tarafından orijinal 1989 kağıdın bağlantı ve arkadaşlarının burada . Ayrıca, Kuncheva'nın " Desen sınıflandırıcılarını birleştirme " kitabında çok iyi bir açıklama var .


5

Degrade Artırılmış Ağaçlar.

  • Birçok uygulamada en az RF kadar doğru
  • Eksik değerleri sorunsuz bir şekilde birleştirir
  • Var önemi (RF muhtemelen sürekli ve birçok seviye nominal lehine taraflı)
  • Kısmi bağımlılık grafikleri
  • GBM'ye karşı randomForest in R: ÇOK daha büyük veri kümelerini işler

4

Gauss Süreci sınıflandırıcısı - olasılıklı tahminler verir (operasyonel göreceli sınıf frekanslarınız egzersiz setinizdekilerden farklı olduğunda veya eşdeğerlik yanlış pozitif / yanlış negatif maliyetleriniz bilinmediği veya değişkendiğinde yararlıdır). Ayrıca, sonlu bir veri kümesinden "modeli tahmin etme" belirsizliğine bağlı olarak model öngörülerindeki belirsizliğin ortaya çıkmasını sağlar. Ko-varyans işlevi, bir SVM'deki çekirdek işlevine eşdeğerdir, bu nedenle doğrudan vektörel olmayan veriler (örneğin, dizeler veya grafikler vb.) Üzerinde de çalışabilir. Matematiksel çerçeve de temizdir (ancak Laplace yaklaşımını kullanmayın). Marjinal olasılığı en üst düzeye çıkararak otomatik model seçimi.

Esasen lojistik regresyon ve SVM'nin iyi özelliklerini birleştirir.


Bunu uygulamanızı tavsiye ettiğiniz R paketi var mı? Bu yöntem için tercih ettiğiniz uygulama nedir? Teşekkürler!
julieth

Korkarım bir MATLAB kullanıcısıyım (GPuss paketini kullanıyorum gaussianprocess.org/gpml/code/matlab/doc ), bu yüzden R uygulamaları hakkında tavsiyede bulunamıyorum, ancak burada uygun bir şey bulabilirsiniz gaussianprocess.org/# kod . R'nin GP'ler için iyi bir paketi yoksa, birinin bir tane yazması gerekir!
Dikran Marsupial

Tamam teşekkürler. Bu metodoloji, rastgele ormanların değişken önemi veya SVM'lerle özyinelemeli özellik ortadan kaldırılması gibi önemli değişkenlerin seçilmesine izin veriyor mu?
julieth

Evet, "Otomatik Alaka Düzeyi Belirleme" kovaryans işlevini kullanabilir ve model için Bayes kanıtını en üst düzeye çıkararak hiper parametreleri seçebilirsiniz (ancak bu, SVMS ile elde ettiğiniz aynı tür aşırı uydurma sorunlarına yol açabilir, ancak genellikle model özellik seçimi olmadan daha iyi performans gösterir).
Dikran Marsupial

4

L1 düzenli lojistik regresyon.

  • Hesaplama açısından hızlı.
  • Sezgisel bir yorumu var.
  • Çapraz doğrulamayla otomatik olarak ayarlanabilen, kolayca anlaşılabilen tek bir hiperparametreye sahiptir, bu da genellikle iyi bir yoldur.
  • Katsayıları parçalı doğrusaldır ve hiperparametreyle ilişkileri basit bir grafikte anında ve kolayca görülebilir.
  • Değişken seçimi için daha az şüpheli yöntemlerden biridir.
  • Ayrıca gerçekten harika bir ismi var.

+1 Hiper parametre de analitik olarak da entegre edilebilir, bu nedenle birçok uygulama için çapraz doğrulamaya gerek yoktur, bkz. Örneğin theoval.cmp.uea.ac.uk/publications/pdf/nips2006a.pdf ve biyoinformatik .oxfordjournals.org / content / 22/19 / 2348.full.pdf .
Dikran Marsupial

3

kNN


3

Naif Bayes ve Rastgele Naif Bays


2
RNB'nin size iyi sonuçlar verdiği bir sorun verebilir misiniz?
asukasz Lew

Hayır ;-) Bu sadece havuzu canlandırmak oldu.

1

K- gözetimsiz öğrenme için kümeleme anlamına gelir .


Soru özellikle bir sınıflandırıcı ister.
Prometheus
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.