Veri madenciliğinde sınıflandırma ve kümeleme arasındaki fark nedir? [kapalı]


195

Birisi veri madenciliğinde sınıflandırma ve kümeleme arasındaki farkın ne olduğunu açıklayabilir mi?

Yapabiliyorsanız, lütfen ana fikri anlamak için her ikisine de örnekler verin.

Yanıtlar:


242

Genel olarak, sınıflandırmada bir dizi önceden tanımlanmış sınıfınız vardır ve yeni bir nesnenin hangi sınıfa ait olduğunu bilmek istersiniz.

Grubuna çalışır nesneleri kümesi kümeleme ve olup olmadığını bulmak bazı nesneler arasındaki ilişki.

Makine öğrenimi bağlamında, sınıflandırma denetimli öğrenme , kümeleme ise denetimsiz öğrenmedir .

Ayrıca bir göz at Wikipedia'da Sınıflandırma ve Kümeleme konusuna.


3
Cevap için teşekkürler. Anladığım kadarıyla. Sınıflandırmada örneklerim var ve bu örnekleri bir veya başka bir sınıfa ayırıyorum. Ancak kümelemede örneklerim var ancak örnekleri gruplandıracak sınıflarım yok. Öyleyse örneklere dayalı kümelenmede sınıf bulmam gerekiyor mu? Haklı mıyım yoksa akılda tutulması gereken önemli bir şey var mı? Ve memnuniyet verebilir misin örnek? Saygılarımla, Kristaps
Kristaps

4
@ Kristaps: Sanırım şu ana kadar haklısın. Ancak kümelenme sınıfları bulmak zorunda değilsiniz. Bazı öğeler kümesinin bir tür ilişki oluşturup oluşturmadığını görmek istersiniz (bazı modellerde birbirine daha yakın olarak). Normalde sınıf bulamazsınız (sınıflandırma için sınıfları bulmak için kümelemeyi kullandığınızı düşünüyorsanız). Durum böyle değil. Bunun yerine, başlangıçta etiketli öğelerden oluşan bir eğitim setiniz var (böylece hangi sınıfa ait olduklarını biliyorsunuz). Daha sonra öğeleri doğru sınıflara atamak için bir sınıflandırma algoritması eğitirsiniz ve doğrularsınız
Felix Kling

4
doğruluk (veriler etiketlendiğinde yapabileceğiniz). Günlük sınıflandırmaya örnek olarak spam filtreleme verilebilir. Spam filtresi, bir postanın spam olup olmadığına karar vermelidir. Filtreye, bir postanın yanlış sınıflandırılıp sınıflandırılmadığını da söyleyebilirsiniz. Kümeleme için gerçekten bir örnek bilmiyorum. Ancak, örneğin 1000 Twitter iletisi alabilir, kümelemeyi deneyebilir ve sonra kümelerin neyi ortaya çıkardığını (ve varsa) inceleyebilirsiniz.
Felix Kling

Hem düşünmek Sınıflandırma ve Kümeleme olan sınıflandırır bu doğru, yöntem?
WoooHaaaa

@MrROY Eğer Classify ile kastediyorsanız: "sınıfları veya kategorileri ortak niteliklere veya özelliklere göre düzenleyin (bir grup insan ya da şey)." , o zaman evet.
bitek


57

Bu soruyu herhangi bir veri madenciliği veya makine öğrenen kişiye sorduysanız, size kümeleme ve sınıflandırma arasındaki farkı açıklamak için denetimli öğrenme ve denetimsiz öğrenme terimini kullanacaklardır. Önce size denetlenen ve denetlenmeyen anahtar kelimeyi açıklayayım.

Denetimli öğrenme: bir sepetiniz olduğunu ve bazı taze meyvelerle dolu olduğunu varsayalım ve göreviniz aynı tip meyveleri tek bir yerde düzenlemek. meyvelerin elma, muz, kiraz ve üzüm olduğunu varsayalım. böylece önceki çalışmalarınızdan, her meyvenin şeklinin zaten aynı tür meyveleri tek bir yerde düzenlemek kolay olduğunu zaten biliyorsunuz. burada önceki çalışmanıza veri madenciliğinde eğitimli veri denir. bu yüzden zaten eğitimli verilerinizden bir şeyler öğreniyorsunuz, Bunun nedeni, bazı meyvelerin böyle özelliklere sahip olması ve böylece her meyve için olduğu gibi üzüm olduğunu söyleyen bir yanıt değişkeniniz olması.

Eğitilen verilerden alacağınız bu tür veriler. Bu tür öğrenme, denetimli öğrenme olarak adlandırılır. Bu tür çözme problemi Sınıflandırma altındadır. Böylece zaten öğreniyorsunuz, böylece işinizi güvenle yapabilirsiniz.

denetimsiz: bir sepetiniz olduğunu ve bazı taze meyvelerle dolu olduğunu varsayalım ve göreviniz aynı tip meyveleri tek bir yerde düzenlemek.

Bu kez bu meyveler hakkında hiçbir şey bilmiyorsunuz, bu meyveleri ilk kez görüyorsunuz, böylece aynı tür meyveleri nasıl düzenleyeceksiniz.

İlk önce ne yapacağınız meyveyi alırsınız ve o meyvenin herhangi bir fiziksel karakterini seçersiniz. renk aldığını varsayalım.

Sonra onları renge göre ayarlayacaksınız, o zaman gruplar böyle bir şey olacak. KIRMIZI RENK GRUBU: elma ve kiraz meyveleri. YEŞİL RENK GRUBU: muz ve üzüm. şimdi boyut olarak başka bir fiziksel karakter alacaksınız, şimdi gruplar böyle bir şey olacak. KIRMIZI RENK VE BÜYÜK BOY: elma. KIRMIZI RENK VE KÜÇÜK BOY: kiraz meyveleri. YEŞİL RENK VE BÜYÜK BOY: muz. YEŞİL RENK VE KÜÇÜK BOY : üzüm. mutlu biten iş.

burada daha önce hiçbir şey öğrenmediniz, tren verisi ve cevap değişkeni yok demektir. Bu tür öğrenme, denetimsiz öğrenme olarak bilinir. kümelenme denetimsiz öğrenme altındadır.


18

+ Sınıflandırma: Size bazı yeni veriler verilir, bunlar için yeni etiket ayarlamanız gerekir.

Örneğin, bir şirket potansiyel müşterilerini sınıflandırmak istemektedir. Yeni bir müşteri geldiğinde, bunun ürünlerini satın alacak bir müşteri olup olmadığını belirlemeleri gerekir.

+ Kümeleme: size kimin ne aldığını kaydeden bir dizi geçmiş işlemi verilir.

Kümeleme tekniklerini kullanarak müşterilerinizin segmentasyonunu anlayabilirsiniz.


3
"Yeni bir müşteri geldiğinde, bunun ürünlerini satın alacak bir müşteri olup olmadığını belirlemeleri gerekir." lojistik regresyon için daha iyi bir adaydır. Sınıflandırma örneği, müşterinin "premium", "standart" veya "ekonomi" modelini satın alıp almayacağını tahmin etmektir. Havayolu örneği: tur otobüsü, erken biniş yapan antrenör, ilave ayaklı antrenör.
GDB

16

Eminim ki birçoğunuz makine öğrenimi hakkında bir şeyler duymuşsunuzdur. Bir düzine kişi bunun ne olduğunu bile biliyor olabilir. Ve birçoğunuz da makine öğrenme algoritmalarıyla çalışmış olabilirsiniz. Bunun nereye gittiğini görüyorsun? Pek çok insan, bundan 5 yıl sonra kesinlikle gerekli olacak teknolojiye aşina değil. Siri, makine öğrenmesidir. Amazon'un Alexa makinesi öğreniyor. Reklam ve alışveriş öğesi tavsiye sistemleri makine öğrenimidir. Makine öğrenimini 2 yaşında bir çocuğun basit bir benzetmesiyle anlamaya çalışalım. Sadece eğlence için ona Kylo Ren diyelim

Kaynak: blog.printkeg.com

Diyelim ki Kylo Ren bir fil gördü. Beyni ona ne söyleyecek? (Vader'in halefi olsa bile minimum düşünme kapasitesine sahip olduğunu unutmayın). Beyni ona gri renkli büyük hareketli bir yaratık gördüğünü söyleyecektir. Sıradaki bir kediyi görür ve beyni ona bunun altın renkli, küçük, hareketli bir yaratık olduğunu söyler. Sonunda, bir ışık kılıcı görür ve beyni ona, onun oynayabileceği cansız bir nesne olduğunu söyler!

Bu noktada beyni kılıcın fil ve kediden farklı olduğunu bilir, çünkü kılıcı oynamak için bir şeydir ve kendi başına hareket etmez. Kylo, ​​hareketli ne anlama geldiğini bilmese bile beynini bu kadar çözebilir. Bu basit fenomene Kümeleme denir.

Kaynak: jeffcarpenterblog.tumblr.com

Makine öğrenimi, bu sürecin matematiksel versiyonundan başka bir şey değildir. İstatistikleri inceleyen birçok insan, bazı denklemlerin beyin çalışmasıyla aynı şekilde çalışabileceğini fark etti. Beyin benzer nesneleri kümeleyebilir, beyin hatalardan öğrenebilir ve beyin şeyleri tanımlamayı öğrenebilir.

Tüm bunlar istatistiklerle temsil edilebilir ve bu sürecin bilgisayar tabanlı simülasyonuna Makine Öğrenimi denir. Bilgisayar tabanlı simülasyona neden ihtiyacımız var? çünkü bilgisayarlar ağır matematiği insan beyninden daha hızlı yapabilir. Makine öğreniminin matematiksel / istatistiksel kısmına girmek isterim, ancak önce bazı kavramları temizlemeden buna atlamak istemezsiniz.

Kylo Ren'e geri dönelim. Diyelim ki Kylo kılıcı alıp onunla oynamaya başlıyor. Kazara bir fırtınaya çarpar ve fırtına memuru yaralanır. Neler olduğunu anlamıyor ve oynamaya devam ediyor. Sonra bir kediyi vurur ve kedi yaralanır. Bu sefer Kylo kötü bir şey yaptığından emin ve biraz dikkatli olmaya çalışıyor. Ancak kötü kılıç yetenekleri göz önüne alındığında, fillere çarpıyor ve başının belada olduğundan kesinlikle emin. Daha sonra son derece dikkatli olur ve sadece Force Awakens'te gördüğümüz gibi babasına bilerek vurur !!

Kaynak: joyreactor.com

Hatadan öğrenme sürecinin tamamı, yanlış bir şey yapma hissinin bir hata veya maliyetle temsil edildiği denklemlerle taklit edilebilir. Bir kılıçla ne yapılmayacağını belirleme sürecine Sınıflandırma denir. Kümeleme ve Sınıflandırma, makine öğrenmesinin mutlak temelleridir. Aralarındaki farka bakalım.

Kylo hayvanlar ve ışın kılıcı arasında ayrım yaptı çünkü beyni ışık kılıçlarının kendi başlarına hareket edemediğine ve bu nedenle farklı olduğuna karar verdi. Karar sadece mevcut nesnelere (veriler) dayanıyordu ve hiçbir dış yardım veya tavsiye verilmiyordu. Bunun aksine, Kylo önce bir nesneye çarpmanın neler yapabileceğini gözlemleyerek ışık kılıcına dikkat etmenin önemini farklılaştırdı. Karar tamamen kılıca değil, farklı nesnelere neler yapabileceğine dayanıyordu. Kısacası, burada biraz yardım vardı.

Kaynak: pintrest

Öğrenmedeki bu farklılık nedeniyle, Kümelenme denetimsiz bir öğrenme yöntemi, Sınıflandırma ise denetimli bir öğrenme yöntemi olarak adlandırılmaktadır. Makine öğrenimi dünyasında çok farklıdırlar ve genellikle mevcut veri türüne göre belirlenirler. Etiketli veri (veya öğrenmemize yardımcı olan şeyler, örneğin Kylo'nun davasında fırtına, fil ve kedi) elde etmek genellikle kolay değildir ve farklılaştırılacak veriler büyük olduğunda çok karmaşık hale gelir. Öte yandan, etiketsiz öğrenmenin, etiket başlıklarının ne olduğunu bilmemek gibi kendi dezavantajları olabilir. Eğer Kylo herhangi bir örnek ya da yardım olmadan kılıca dikkat etmeyi öğrenseydi, ne yapacağını bilemezdi. Sadece yapılması gerektiğini varsaymazdı. Bu biraz topal bir benzetme ama anladınız!

Machine Learning ile yeni başlıyoruz. Sınıflandırmanın kendisi sürekli sayıların sınıflandırılması veya etiketlerin sınıflandırılması olabilir. Örneğin, Kylo her bir fırtınanın yüksekliğinin ne olduğunu sınıflandırmak zorunda olsaydı, çok sayıda cevap olurdu, çünkü yükseklikler 5.0, 5.01, 5.011 vb. Olabilir. çok sınırlı cevapları olurdu. Aslında basit sayılarla temsil edilebilirler. Kırmızı 0, Mavi 1 ve Yeşil 2 olabilir.

Temel matematiği biliyorsanız, 0,1,2 ve 5.1,5.01,5.011'in farklı olduğunu ve sırasıyla ayrık ve sürekli sayılar olarak adlandırıldığını bilirsiniz. Kesikli sayıların sınıflandırılmasına Lojistik Regresyon, sürekli sayıların sınıflandırılmasına Regresyon denir. Lojistik Regresyon, kategorik sınıflandırma olarak da bilinir, bu nedenle bu terimi başka bir yerde okurken karıştırmayın

Bu Makine Öğrenimine çok temel bir girişti. Bir sonraki yazımda istatistiksel tarafa geçeceğim. Herhangi bir düzeltmeye ihtiyacım olursa lütfen bana bildirin :)

İkinci bölüm buraya gönderildi . resim açıklamasını buraya girin


2
Merhaba Amit, neden blog yazınızı bir link yerine cevaba eklemiyorsunuz? Linkler sadece cevaplar kaşlarını çattı çünkü siteler aşağı ve onunla cevap gitmek.
Mathemats

3
Teşekkürler. Bunu yapacağım :)
Amit Juneja

2
“Kesikli sayıların sınıflandırılmasına Lojistik Regresyon denir” çok büyük aşırı basitleştirme; LR, sınıflandırma için kullanılabilecek birçok olası teknikten sadece bir tanesidir (diğerleri ağaç tabanlı (RF, GBT / XGB), NN tabanlı, vb. "Sürekli sayıların sınıflandırmasına Regresyon denir" açık) kendiliğinden çelişkilidir; Şunu "sürekli sayıların tahmini" .
SMCI

7

Veri Madenciliği'ne yeni bir geliyorum, ancak ders kitabımın söylediği gibi, SINIFLAMANIN denetimli öğrenme ve KÜMELENMESİNİN denetlenmemiş öğrenme olması gerekiyor. Denetimli öğrenme ile denetimsiz öğrenme arasındaki fark burada bulunabilir .


6

sınıflandırma

Atama mı önceden tanımlanmış sınıflar için yeni gözlemlere dayanarak, öğrenme örneklerden.

Makine öğrenmesindeki temel görevlerden biridir.

Kümeleme (veya Küme Analizi)

Halk tarafından "denetimsiz sınıflandırma" olarak reddedilirken, oldukça farklıdır.

Birçok makine öğrencisinin size öğreteceklerinin aksine, bu, nesnelere "sınıflar" atamakla ilgili değildir, ancak önceden tanımlanmadan. Bu, çok fazla sınıflandırma yapan insanların çok sınırlı görüşüdür; Çekiciniz (sınıflandırıcı) varsa tipik bir örnek , her şey size bir çivi (sınıflandırma sorunu) gibi görünüyor . Ama aynı zamanda sınıflandırma insanların neden kümelenme asmıyorlar.

Bunun yerine, bunu yapı keşfi olarak düşünün . Kümelemenin görevi, verilerinizde daha önce bilmediğiniz bir yapı (örn. Gruplar) bulmaktır . Kümelenme başarılı olmuştur eğer yeni bir şey öğrendim. Sadece bildiğiniz yapıya sahipseniz başarısız oldu.

Küme analizi, veri madenciliğinin (ve makine öğrenmesindeki çirkin ördek yavrusu) önemli bir görevidir, bu nedenle kümelenmeyi reddeden makine öğrencilerini dinlemeyin).

"Denetimsiz öğrenme" bir şekilde Oksimoron

Bu, literatürde yukarı ve aşağı yinelenmiştir, ancak denetimsiz öğrenme blsl t'dir . Mevcut değil, ama "askeri istihbarat" gibi bir oksimoron.

Algoritma örneklerden öğrenir (o zaman "denetimli öğrenme" dir) veya öğrenmez. Tüm kümeleme yöntemleri "öğrenme" ise, veri kümesinin minimum, maksimum ve ortalamasını hesaplamak da "denetimsiz öğrenme" dir. Sonra herhangi bir hesaplama çıktısını "öğrendi". Dolayısıyla 'gözetimsiz öğrenme' terimi tamamen anlamsızdır , her şey ve hiçbir şey ifade etmez.

Bununla birlikte, bazı "denetimsiz öğrenme" algoritmaları optimizasyon kategorisine girer. Örnek k-ortalama için ise en küçük kareler optimizasyon. Bu tür yöntemler tüm istatistiklerin üzerindedir, bu yüzden onları "denetimsiz öğrenme" olarak etiketlememiz gerektiğini düşünmüyorum, bunun yerine "optimizasyon sorunları" olarak adlandırmaya devam etmeliyim. Daha kesin ve daha anlamlı. Optimizasyon içermeyen ve makine öğrenme paradigmalarına iyi uymayan çok sayıda kümeleme algoritması vardır. Bu yüzden onları "denetimsiz öğrenme" şemsiyesi altında sıkmayı bırakın.

Kümelemeyle ilişkili bir "öğrenme" vardır, ancak öğrenen program bu değildir. Veri kümesi hakkında yeni şeyler öğrenmesi gereken kullanıcıdır.


Bu cevap bana bir sınıflandırma kişisi olduğumu anlamamı sağladı. Bana gerçekten yardımcı oldu.
Kta

Her kümeleme algoritması genel bir meta model alır. Btw, aynısı denetimli öğrenme için de geçerlidir, örneğin sinir ağları (NN). Her iki kasada da (denetlenen ve denetlenmeyen), genel meta modelin parametrelerini (bazen gizli) maliyet işlevine göre verilere uyacak şekilde optimize ederiz. (Bu kısma "öğrenme" denir.) Bu hem kümeleme hem de sınıflandırma için geçerlidir. Her iki durumda da, sunulan verilere göre optimize edilmiş olarak belirli bir modeli (varsayılan bir genel meta modele dayalı olarak) öğreniriz. Özel optimize kümeleme modelini kullanarak verileri gruplara ayırabiliriz.
Make42

TL; DR: Sen kümeleme sağ olduğunu vardır değil - "denetimsiz classifcation" ama usupervised öğrenme değil bir tezat olduğunu öğrenme oluyor !
Make42

Örneğin, DBSCAN'daki "öğrenme" nerede?
QUIT (ÇIK) Vardır - Anony-Mousse

4

Kümeleme yoluyla, verileri ayıklanan kümelerin sayısı, şekli ve diğer özellikleri gibi istediğiniz özelliklerle gruplayabilirsiniz. Sınıflandırmada grupların sayısı ve şekli sabittir. Kümeleme algoritmalarının çoğu parametre olarak kümelerin sayısını verir. Ancak, uygun sayıda kümeyi bulmak için bazı yaklaşımlar vardır.


4

Her şeyden önce, birçok cevap burada belirtildiği gibi: sınıflandırma denetimli öğrenmedir ve kümelenme denetlenmez. Bu şu anlama gelir:

  1. Sınıflandırma etiketlenmiş verilere ihtiyaç duyar, böylece sınıflandırıcılar bu veriler hakkında eğitilebilir ve bundan sonra yeni görünmeyen verileri bildiklerine göre sınıflandırmaya başlar. Kümeleme gibi denetimsiz öğrenme, etiketli verileri kullanmaz ve aslında yaptığı, gruplar gibi verilerdeki içsel yapıları keşfetmektir.

  2. Her iki teknik arasındaki (bir öncekiyle ilgili) diğer bir fark, sınıflamanın, çıktının kategorik bağımlı bir değişken olduğu bir tür ayrık regresyon problemi olmasıdır. Öte yandan, kümelenmenin çıktısı grup adı verilen bir alt küme verir. Bu iki modeli değerlendirmenin yolu da aynı nedenden ötürü farklıdır: sınıflandırmada genellikle hassasiyet ve geri çağırma, aşırı takma ve eksik takma gibi şeyleri kontrol etmeniz gerekir. Bu şeyler size modelin ne kadar iyi olduğunu söyleyecektir. Ancak kümelemede, bulduklarınızı yorumlamak için genellikle vizyona ve uzmana ihtiyacınız vardır, çünkü ne tür bir yapıya sahip olduğunuzu bilmiyorsunuz (grup veya küme türü). Kümeleme bu nedenle keşifsel veri analizine aittir.

  3. Son olarak, uygulamaların her ikisi arasındaki temel fark olduğunu söyleyebilirim. Kelimenin söylediği gibi sınıflandırma, bir sınıfa ya da başka bir örneğe, örneğin bir erkek ya da bir kadın, bir kedi ya da bir köpek, vb. Ait örnekleri ayırt etmek için kullanılır. vb.


3

Sınıflandırma : Sonuçların ayrık bir çıktı ile sonuçlanması => girdi değişkenlerini ayrık kategorilere eşleme

resim açıklamasını buraya girin

Popüler kullanım kılıfları:

  1. E-posta sınıflandırması: Spam veya Spam dışı

  2. Müşteriye yaptırım kredisi: Onaylanan kredi tutarı için EMI ödeyebiliyorsa evet. Hayır yapamazsa

  3. Kanser tümör hücrelerinin tanımlanması: Kritik mi yoksa kritik değil mi?

  4. Tweetlerin duygu analizi: Tweet, pozitif veya negatif veya nötr midir?

  5. Haberin sınıflandırılması: Haberleri önceden tanımlanmış sınıflardan birine - Politika, Spor, Sağlık vb.

Kümeleme : bir grup nesneyi, aynı gruptaki nesnelerin (küme olarak adlandırılır) diğer gruplara (kümeler) kıyasla birbirine daha yakın (bir anlamda) olacak şekilde gruplandırma görevidir.

resim açıklamasını buraya girin

resim açıklamasını buraya girin

Popüler kullanım kılıfları:

  1. Pazarlama: Pazarlama amacıyla müşteri segmentlerini keşfedin

  2. Biyoloji: Farklı bitki ve hayvan türleri arasında sınıflandırma

  3. Kütüphaneler: Konular ve bilgiler temelinde farklı kitapları kümeleme

  4. Sigorta: Müşterileri, politikalarını ve sahtekarlıkları tanımak

  5. Şehir Planlaması: Ev grupları oluşturun ve değerlerini coğrafi konumlarına ve diğer faktörlere göre inceleyin.

  6. Deprem çalışmaları: Tehlikeli bölgelerin belirlenmesi

  7. Öneri sistemi :

Referanslar:

geeksforgeeks

dataaspirant

3leafnodes


2

Sınıflandırma - Kategorik sınıf etiketlerini tahmin eder - Verileri bir eğitim setine ve sınıf etiketi özelliğindeki değerleri (sınıf etiketleri) temel alarak sınıflandırır - Modeli yeni verileri sınıflandırmada kullanır

Küme: veri nesneleri koleksiyonu - Aynı kümede birbirine benzer - Diğer kümelerdeki nesnelere benzemez


2

Kümeleme, verilerdeki grupları bulmayı amaçlar. “Küme” sezgisel bir kavramdır ve matematiksel olarak titiz bir tanımı yoktur. Bir kümenin üyeleri birbirine benzemeli ve diğer kümelerin üyelerinden farklı olmalıdır. Bir kümeleme algoritması, etiketlenmemiş bir veri kümesi Z üzerinde çalışır ve üzerinde bir bölüm oluşturur.

Sınıflar ve Sınıf Etiketleri için sınıf benzer nesneler içerirken, farklı sınıflardan nesneler farklıdır. Bazı sınıfların açık bir anlamı vardır ve en basit durumda birbirini dışlar. Örneğin, imza doğrulamasında imza orijinal veya sahte. Gerçek sınıf, belirli bir imzanın gözlemlenmesinden doğru bir şekilde tahmin edemeyebilirsek de, ikisinden biridir.


2

Kümeleme, nesneleri benzer özelliklere sahip nesnelerin bir araya geleceği ve benzer olmayan özelliklere sahip nesnelerin ayrılacağı şekilde gruplama yöntemidir. Makine öğrenimi ve veri madenciliğinde kullanılan istatistiksel veri analizi için yaygın bir tekniktir.

Sınıflandırma, nesnelerin eğitim seti temelinde tanındığı, farklılaştırıldığı ve anlaşıldığı bir sınıflandırma sürecidir. Sınıflandırma, bir eğitim setinin ve doğru tanımlanmış gözlemlerin mevcut olduğu denetimli bir öğrenme tekniğidir.


2

Mahout in Action kitabından ve bence farkı çok iyi açıklıyor:

Sınıflandırma algoritmaları, k-ortalama algoritması gibi kümeleme algoritmaları ile ilgilidir, ancak yine de oldukça farklıdır.

Sınıflandırma algoritmaları, kümelenme algoritmaları ile gerçekleşen denetimsiz öğrenmenin aksine bir tür denetimli öğrenmedir.

Denetimli öğrenme algoritması, bir hedef değişkenin istenen değerini içeren örnekler verilen algoritmadır. Denetimsiz algoritmalara istenen cevap verilmez, bunun yerine kendi başlarına makul bir şey bulmaları gerekir.


2

Sınıflandırma için bir astar:

Verileri önceden tanımlanmış kategorilere ayırma

Kümeleme için bir astar:

Verileri bir grup kategoride gruplama

Temel fark:

Sınıflandırma, veri almak ve önceden tanımlanmış kategorilere koymaktır ve Verileri gruplandırmak istediğiniz kategori kümesini önceden tanımlamak bilinmemektedir.

Sonuç:

  • Sınıflandırma, kategoriyi zaten etiketlenmiş öğelere göre 1 yeni öğeye atarken, Kümeleme bir grup etiketsiz öğeyi alır ve bunları kategorilere ayırır
  • Sınıflandırmada, bölünecek kategoriler \ gruplar önceden bilinirken, Kümeleme sırasında önceden bölünecek kategoriler \ gruplar önceden bilinmemektedir
  • Sınıflandırmada, 2 aşama vardır - Eğitim aşaması ve ardından Kümeleme sırasında test aşaması, sadece 1 faz - eğitim verilerinin kümelerde bölünmesi
  • Kümeleme Denetimsiz Öğrenme iken Sınıflandırma Denetimli Öğrenmedir

Burada aynı konuyla ilgili uzun bir yazı yazdım:

https://neelbhatt40.wordpress.com/2017/11/21/classification-and-clustering-machine-learning-interview-questions-answers-part-i/


1

Rafınıza çok sayıda sayfa kaydetmeye çalışıyorsanız (dosyanın tarihine veya başka bir özelliğine göre) SINIFLANDIRIRSINIZ.

Sayfa kümesinden kümeler oluşturacak olsaydınız, sayfalar arasında benzer bir şey olduğu anlamına gelir.


1

Veri madenciliği "Denetimli" ve "Denetimsiz" olmak üzere iki tanım vardır. Birisi bilgisayara, algoritmaya, koda, ... bu şeyin bir elma gibi olduğunu ve o şeyin bir portakal gibi olduğunu söylediğinde, bu denetimli öğrenme ve denetimli öğrenme (bir veri kümesindeki her örnek için etiketler gibi) veri, sınıflandırma alırsınız. Ancak diğer taraftan, bilgisayarın verilen veri kümesinin özellikleri arasında neyin ve neyin farklı olduğunu bulmasına izin verirseniz, aslında denetimsiz öğrenme, veri kümesini sınıflandırmak için buna kümeleme denir. Bu durumda algoritmaya beslenen verilerin etiketleri yoktur ve algoritma farklı sınıflar bulmalıdır.


1

Machine Learning veya AI büyük ölçüde gerçekleştirdiği / gerçekleştirdiği görev tarafından algılanır.

Benim düşünceme göre, Kümelenme ve Sınıflandırma'yı, görev kavramı içinde düşünerek, ikisi arasındaki farkı anlamaya gerçekten yardımcı olabilirler.

Kümeleme bir şeyleri gruplamaktır ve Sınıflandırma, bir şeyleri etiketlemek içindir.

Diyelim ki, tüm erkeklerin Suit olduğu ve kadınların Gowns'teki bir parti salonunda olduğunuzu varsayalım.

Şimdi, arkadaşınıza birkaç soru soruyorsunuz:

S1: Heyy, insanları gruplamama yardım edebilir misin?

Arkadaşınızın verebileceği olası cevaplar:

1: İnsanları Cinsiyet, Erkek veya Kadına göre gruplandırabilir

2: İnsanları kıyafetlerine göre gruplandırabilir, 1 diğer elbise giyiyor

3: İnsanları saçlarının rengine göre gruplandırabilir

4: İnsanları yaş gruplarına, vb. Göre gruplayabilir.

Bunlar arkadaşınızın bu görevi tamamlayabilmesinin çeşitli yollarıdır.

Elbette, karar verme sürecini aşağıdaki gibi ekstra girdiler sağlayarak etkileyebilirsiniz:

Bu insanları cinsiyete (veya yaş grubuna, saç rengine veya elbisesine vb.) Göre gruplandırmama yardımcı olabilir misiniz?

S2:

İkinci çeyrekten önce bazı ön çalışmalar yapmanız gerekiyor.

Bilgili karar alabilmesi için arkadaşınızı öğretmeniz veya bilgilendirmeniz gerekir. Diyelim ki arkadaşınıza şunları söylediniz:

  • Uzun saçlı insanlar kadındır.

  • Kısa saçlı insanlar Erkekler.

S2. Şimdi, uzun saçlı bir kişiye işaret ediyor ve arkadaşınıza soruyorsunuz - bu bir erkek mi, kadın mı?

Bekleyebileceğiniz tek cevap: Kadın.

Elbette, partide uzun tüylü erkekler ve kısa tüylü kadınlar olabilir. Ancak, arkadaşınıza verdiğiniz öğrenmeye göre cevap doğrudur. Bu ikisi arasında nasıl ayrım yapabileceğiniz konusunda arkadaşınıza daha fazla bilgi vererek süreci daha da geliştirebilirsiniz.

Yukarıdaki örnekte,

Q1, Kümelenmenin başardığı görevi temsil eder.

Kümeleme'de algoritmaya (arkadaşınıza) verileri (kişileri) sağlar ve verileri gruplandırmasını istersiniz.

Şimdi, gruplamanın en iyi yolunun ne olduğuna karar vermek algoritmaya bağlı mı? (Cinsiyet, Renk veya yaş grubu).

Yine, ekstra girdiler sağlayarak algoritma tarafından verilen kararı kesinlikle etkileyebilirsiniz.

Q2, Sınıflandırmanın gerçekleştirdiği görevi temsil eder.

Orada, algoritmanıza (arkadaşınıza) Eğitim verisi olarak adlandırılan bazı veriler (Kişiler) verir ve hangi verilerin hangi etikete (Erkek veya Kadın) karşılık geldiğini öğrenmesini sağlarsınız. Daha sonra algoritmanızı Test verisi olarak adlandırılan belirli verilere yönlendirirsiniz ve verilerin Erkek mi Kadın mı olduğunu belirlemesini istersiniz. Öğretiniz ne kadar iyi olursa, tahmin o kadar iyidir.

Ve Q2 veya Sınıflandırmadaki Ön Çalışma sadece modelinizi eğitmekten başka bir şey değildir, böylece nasıl ayırt edileceğini öğrenebilir. Kümeleme veya Q1'de bu ön çalışma gruplamanın bir parçasıdır.

Umarım bu birine yardımcı olur.

Teşekkürler


1

resim açıklamasını buraya girin

Sınıflandırma - Bir veri kümesinin farklı grupları / sınıfları olabilir. kırmızı, yeşil ve siyah. Sınıflandırma, onları farklı sınıflara ayıran kuralları bulmaya çalışacaktır.

Kümeleme - Veri kümesinde herhangi bir sınıf yoksa ve bunları bir sınıf / gruplamaya koymak istiyorsanız, kümeleme yaparsınız. Yukarıdaki mor daireler.

Sınıflandırma kuralları iyi değilse, testte yanlış sınıflandırmaya sahip olacaksınız veya kurallarınız yeterince doğru değil.
kümeleme iyi değilse, çok fazla aykırı değerlere sahip olacaksınız. veri noktaları herhangi bir kümeye düşemez.


1

Sınıflandırma ve Kümeleme Arasındaki Temel Farklılıklar şunlardır: Sınıflandırma, verilerin sınıf etiketleri yardımıyla sınıflandırılması işlemidir. Öte yandan, Kümeleme sınıflandırmaya benzer, ancak önceden tanımlanmış sınıf etiketi yoktur. Sınıflandırma, denetimli öğrenme ile yapılır. Buna karşı, kümelenme aynı zamanda denetimsiz öğrenme olarak da bilinir. Sınıflandırma yönteminde eğitim örneği sağlanırken, kümelenme durumunda eğitim verisi sağlanmaz.

Umarım bu yardımcı olur!


-1

Sınıflandırmanın bir veri setindeki kayıtları önceden tanımlanmış sınıflar olarak sınıflandırdığı veya hatta hareket halindeyken sınıfları tanımladığı inancındayım. Herhangi bir değerli veri madenciliği için ön koşul olarak bakıyorum, gözetimsiz öğrenmede düşünmeyi seviyorum, yani veri madenciliği ve sınıflandırma iyi bir başlangıç ​​noktası olarak hizmet ederken ne aradığını bilmiyor

Öte yandan kümelenme denetimli öğrenme altındadır, yani hangi parametrelerin aranacağını, kritik düzeylerle birlikte aralarındaki korelasyonu bilir. Bazı istatistiklerin ve matematiğin anlaşılmasını gerektirdiğine inanıyorum


3
Aslında tam tersi. Sınıflandırma genellikle denetlenir ve kümeleme genellikle denetlenmez.
AlexK
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.