Denetimli kümeleme veya sınıflandırma?


22

lütfen "web'de bir yerde tartışma" bağlantısını verin
Atilla Ozgur


1
"Kümeleme", "denetimsiz sınıflandırma" ile eşanlamlıdır, bu nedenle, "denetimli kümeleme" bir oksimorondur. Kendi Kendini Düzenleyen Haritaların, denetlenmemiş sınıflandırma için kullanılan ve "denetlenen kümelenme" ye en yakın şey olabileceği denetlenen bir teknik olduğu söylenebilir.
Digio

Henüz anlamadığım kadarıyla, "Verileri daha fazla işlemeye hazır hale getirmek için verileri düzenlemek için veya en azından daha fazla analiz etmeye hazır hale getirmek için kümelemeyi kullanıyoruz", yani kümelemede yaptığımız verileri A Sınıfı B'ye bölmek, C ve benzeri ... Şimdi bu veri bir şekilde denetlenir. Şimdi, bu verilerle ne yapmak istediğinize veya Sınıflandırma işlemleri veya Regresyon için olanlar için bu verilerin sizin için ne kadar yararlı olabileceği gereksinimine bağlıdır. Yanlışım varsa düzelt.
sak

Yanıtlar:


2

Saf anlayışıma göre, sınıflandırma, belirli bir sınıf setine sahip olduğunuz ve yeni bir şey / veri setini belirtilen sınıflardan birine sınıflandırmak istediğinizde gerçekleştirilir .

Alternatif olarak, kümelemenin başlaması gereken hiçbir şey yoktur ve tüm verileri (yenileri de dahil olmak üzere) kümelere ayırmak için kullanırsınız.

Her ikisi de nasıl kümeleneceğini / sınıflandırılacağına karar vermek için mesafe ölçümlerini kullanır. Aradaki fark, sınıflandırmanın önceden tanımlanmış bir sınıflar kümesine dayanmasıdır, oysa kümeleme tüm verilere dayanarak kümeleri belirlemektedir.

Yine de saf anlayışım denetimli kümelemenin hala tüm verilere dayanan kümeler olduğu ve bu nedenle sınıflandırmadan ziyade kümelenme olacağı yönünde.

Gerçekte, hem kümelemenin hem de sınıflandırmanın arkasındaki teorinin ikizi arasında olduğundan eminim.


Alçakgönüllülükle katılmıyorum. “Sınıflandırmanın” tanım gereği ve varsayılan olarak denetlenen bir işlem olduğunu, bunun doğru olmadığını söylüyorsunuz. Sınıflandırma, denetlenen ve denetlenmeyen vakalara bölünmüştür; ikincisi kümelenme ile eş anlamlıdır.
Digio

15

Sizden daha fazla tanıdığımı sanmıyorum, ancak gönderdiğiniz bağlantılar cevaplar veriyor. Örnek olarak http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf alacağım . Temel olarak şunları belirtirler: 1) kümeleme bir mesafeye bağlıdır. 2) k-araçlarının başarılı bir şekilde kullanılması dikkatlice seçilmiş bir mesafeyi gerektirir. 3) İstenilen bölümlemelerine sahip öğeler kümesi şeklinde eğitim verileri verildiğinde, k-aracının istenen kümelemeleri üretmesi için bir mesafe ölçümü öğrenen yapısal bir SVM yöntemi sunuyoruz.Bu durumda, hem eğitim verileri hem de öğrenme ile birlikte kümelenme için denetlenen bir aşama vardır. Bu aşamada amaç, bir mesafe işlevini öğrenmek ve böylece bu mesafe ile k-aracı kümelemesinin uygulanmasının, eğitim verilerinin uygulama alanına ne kadar benzer olduğuna bağlı olarak umarım en uygun olacağı yönündedir. Makine öğrenmesi ve kümelemeye uygun olan her zamanki uyarılar hala geçerlidir.

Makaleden daha fazla alıntı: Denetimli kümeleme, kümelenme algoritmasını, küme kümelerinden oluşan bir eğitim seti ve bu küme kümelerinin bütün bölümlerini kullanarak otomatik olarak uyarlama görevidir. . Bu makul bir tanım gibi görünüyor.


Sorun basit: Neden bir etiketli eğitim verisinden bir mesafe ölçüsü öğrenmek istiyorsun ve sonra bu mesafe ölçüsünü kümeleme yöntemiyle uygulamak istiyorsun; neden sadece denetimli bir yöntem kullanmıyorsun. Başka bir deyişle, kümeleme yapmak istiyorsunuz (yani veri kümenizi kümelere ayırma), ancak zaten istenen tam bir bölümlemeye sahip olduğunuzu ve bir uzaklık ölçüsü öğrenmek için kullanacağınızı varsayalım, daha sonra bu veri kümesine bu öğrenmeyi kullanarak kümelemeyi uygulayın. mesafe. En iyi ihtimalle, mesafeyi ölçmek için kullandığınız aynı bölümleri elde edeceksiniz! Siz zaten var
shn

Yazdığınız yere "sonra bu veri kümesine kümeleme uygulayın" yerine "sonra benzer veri kümelerine kümeleme uygulayın". Bu senaryo: X deneyinde A ve B verilerimiz var. A kümelenme içindir, B mesafeyi öğrenmeye yardımcı olur. B, bir altın standardı belirler ve elde edilmesi muhtemelen pahalıdır. Müteakip deneylerde X2, X3 .. A elde ederiz, ancak B
mikanları

Tamam, şimdi bir veri kümesinden B "mesafe öğrenmek" derken: "bazı mesafe eşik değerlerini öğrenmek" veya "mesafe ölçüm fonksiyonunu öğrenmek" (bir tür parametreleştirilmiş uyumsuzluk ölçüsü) mü demek istiyorsunuz?
shn

1
İkincisi, "mesafe metrik fonksiyonunu öğrenme" demek. Bu arada daha fazla okuduktan sonra, yukarıdaki basit A ​​ve B formülümde "El yazması kalem kümelerinin doğru kümelenmeleriyle birlikte verilen eğitim örnekleri verildiğinde amaç, gelecekteki kalem kümelerinin kümelenmiş olması için bir benzerlik ölçüsü öğrenmektir." benzer şekilde. "
mikan

1
Öyleyse, “denetimli kümeleme”, “yarı denetimli kümeleme” olarak adlandırılan şeye çok benziyor. Şimdiye kadar gerçekten bir fark görmüyorum. Bu arada, bazı diğer evraklarda "(yarı) denetimli kümeleme", gelecekteki veri setlerini benzer bir şekilde kümelemek için kullanılacak "değiştirilmiş bir mesafe fonksiyonu yaratma" anlamına gelmez; mesafe işlevini değiştirmeden, "kümeleme algoritmasının kendisini değiştirmek" ile ilgilidir!
shn

3

Bazı tanımlar:

Denetimli kümeleme , tek bir sınıfa yüksek olasılık yoğunluğuna sahip kümeleri belirlemek amacıyla sınıflandırılmış örneklere uygulanır.

Denetimsiz kümeleme , kümeyi sıkı tutmak için örneğin kümenin içindeki mesafeleri en aza indiren bir işlev gibi belirli bir nesne işlevlerini kullanan bir öğrenme çerçevesidir.

Yarı denetimli kümeleme , kümeleme sürecinde yan bilgileri kullanarak kümeleme algoritmasını geliştirmektir.

Sinir Ağları Gelişmeler - ISNN 2010

Bu alanda bir acemi olduğumdan beri çok fazla jargon kullanarak olmadan, yolu anlıyorum denetimli kümeleme daha az şu şekildedir:

In Denetlenen kümeleme sen başlamak Üst-AşağıÖnceden tanımlanmış bazı sınıflarla ve daha sonra aşağıdan yukarıya yaklaşımı kullanarak hangi nesnelerin sınıfınıza daha uygun olduğunu görürsünüz .

Örneğin, bir popülasyondaki favori portakal türüyle ilgili bir çalışma yaptınız.
Pek çok portakal türünden, belirli bir “portakal” türünün tercih edilen portakal türü olduğunu tespit ettiniz.
Ancak, bu portakal türü enfeksiyonlara, iklim değişikliğine ve diğer çevresel etkenlere karşı çok hassastır ve kararsızdır.
Demek ki hakarete karşı çok dirençli olan diğer türlerle onu geçmek istiyorsun.
Sonra laboratuara gidip bir türün sulu ve tatlı tadında ve diğer türün dayanıklılık özelliklerinden sorumlu bazı genler buldunuz.
Birkaç deney yapıyorsunuz ve son olarak, yüzlerce farklı portakal türü alt diyelim.
Şimdi sadece tarif edilen özelliklere tam olarak uyan alt tiplerle ilgileniyorsunuz.
Aynı çalışmayı tekrar popülasyonunuzda yapmak istemezsiniz
. Mükemmel turuncuda aradığınız özellikleri biliyorsunuz.
Böylece küme analizinizi gerçekleştirir ve beklentilerinize en uygun olanları seçersiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.