Akla ilk gelen yazı şudur: Karar Ağacı Yapısı Yoluyla Kümeleme
https://pdfs.semanticscholar.org/8996/148e8f0b34308e2d22f78ff89bf1f038d1d6.pdf
Bir başka bahsedildiği gibi, "hiyerarşik" (yukarıdan aşağıya) ve "hiyerarşik topaklanma" (aşağıdan yukarıya), kümelenme yapmak için ağaçlar kullanılarak geliştirilen iyi bilinen tekniklerdir. Scipy buna sahip.
Herhangi bir kütüphane bilmiyorum çünkü özel kod ile Tamam, tavsiye edebileceğiniz iki teknik vardır. Güvendikleri mekanikler nedeniyle bunların teknik olarak kümelenmediği konusunda uyarılmalıdır. Buna sözde kümeleme diyebilirsiniz.
1) Denetimli: Bu, kağıda biraz benzer (okumaya değer). Bazı hedefleri öğrenmek için tek bir karar ağacı modeli oluşturun (neyin anlamlı olduğuna siz karar verin). Hedef rastgele oluşturulmuş bir sütun olabilir (yinelemenin en iyi olduğunu tekrarlamak ve değerlendirmek gerekir, aşağıya bakın). Ağacın her tam yolunu bir "küme" olarak tanımlayın, çünkü o dal serisinden geçen noktalar teknik olarak hedefe göre benzerdir. Bu sadece bazı problemlerde iyi sonuç verir, ancak büyük ölçekte etkilidir. Sonunda K kümeleri oluşur (aşağıya bakın).
2) # 1 kullanarak yarı denetimli (bir çeşit denetimsiz, ancak mekanik olarak denetlenen): bir dışarı bırakma şablonundaki sütunları tahmin etmek için ağaçlar oluşturmayı deneyebilirsiniz. yani şema [A, B, C] ise, 3 model [A, B] -> C, [A, C] -> B, [B, C] -> A oluşturun. KN kümeleri elde edersiniz (aşağıya bakın). N = (şema) len. Bu özelliklerden bazıları ilginç veya çok dengesiz değilse (kategoriler söz konusu olduğunda), bunları hedef olarak kullanmayın.
Özet: Model, bilgiye veya saflığa dayalı olarak sırayla özellikler seçecek ve kümeler hepsinden ziyade sadece birkaç özelliğe dayanacaktır. Bu kümelerde mesafe kavramı yoktur, ancak kesinlikle merkezlere dayanarak bir tane tasarlayabilirsiniz.
Artıları: anlaşılması ve açıklanması kolay, hızlı eğitim ve çıkarım, birkaç güçlü özellik ile iyi çalışır, kategorilerle çalışır. Özellikleriniz özünde heterojen olduğunda ve birçok özelliğiniz olduğunda, uzaklık işlevinde hangisinin kullanılacağına karar vermek için fazla zaman harcamanıza gerek yoktur.
Eksileri: standart değil, yazılmalı, saf önyargı, hedefle yakınlık kötü sonuçlara neden olur, 1000 eşit derecede önemli özelliğe sahip olmak iyi çalışmaz (Öklid mesafeli KMeans burada daha iyidir).
Kaç küme alıyorsunuz? DT modelinin çok fazla büyümemesi için kesinlikle kısıtlamanız gerekir. Örneğin yaprak başına minimum numune, maksimum yaprak düğümleri (tercih edilen) veya maksimum derinlik ayarlayın. İsteğe bağlı olarak, saflık veya entropi kısıtlamalarını ayarlayın. Bunun size kaç küme verdiğini kontrol etmeli ve bu yöntemin gerçek kümelemeden daha iyi olup olmadığını değerlendirmelisiniz.
Teknikler ve parametreler sizin için iyi çalıştı mı? Hangisi en iyisiydi? Öğrenmek için küme değerlendirmesi yapmanız gerekir: Denetimsiz öğrenmeyi değerlendirmek için performans metrikleri
But I need it for unsupervised clustering, instead of supervised classification
Bu anahtar sözcük tek başına çok kısa ve ne istediğinizi net bir şekilde açıklamıyor. Yukarıda bir karar ağacı gibi görünen şeyleri anlattınız. Şimdi istediğiniz algo hakkında benzer bir pasaj verebilir misiniz?