Bir veri kümesini hem ayrık hem de sürekli değişkenlerle kümeleme


33

4'ü ayrık değerler olan 10 boyuta sahip bir veri kümesi X'e sahibim. Aslında, bu 4 ayrı değişken sıralıdır, yani daha yüksek bir değer daha yüksek / daha iyi bir anlam ifade eder.

Bu ayrık değişkenlerin 2'si, bu değişkenlerin her biri için, örneğin 11 ila 12 arasındaki mesafenin, 5 ila 6 arasındaki mesafeyle aynı olmadığı anlamında kategorize edilmiştir. mutlaka lineer değil (aslında, gerçekten tanımlanmış değil).

Sorum şu:

  • Hem ayrık hem de sürekli değişkenler içeren bu veri kümesine ortak bir kümeleme algoritması (örn. K-Means ve sonra Gaussian Mixture (GMM)) uygulamak iyi bir fikir midir?

Değilse:

  • Ayrık değişkenleri kaldırmalı mıyım ve sadece sürekli olanlara mı odaklanmalıyım?
  • Sürekli olanları ayrıklaştırmam ve ayrık veriler için kümeleme algoritması kullanmalı mıyım?

3
İyi bir mesafe ölçüsü bulmanız gerekir (genellikle kümelemede en zor görev): veri öğelerinizin ne kadar benzer (veya değil) olduğunu doğru ve doğru bir şekilde açıklayan bir mesafe ölçüsü bulabilirseniz, sorun yaşamayacak olmanız gerekir.
Andrew,

Bu kategorik değişkenlerden bahsettiğinizde, bunları sıralı olarak tanımladınız. Şimdi, geri kalan 2 "sıralı" değişkenlerle ilgili ne var? Onlardan nasıl farklılar?
ttnphns

Ayrıca ayrıktırlar, ancak her ikisi de anlamlı bir mesafe işlevine sahiptir, yani bunlar aralık tabanlıdır (aralık tabanlı tanımını karıştırmazsam).
ptikobj

Yanıtlar:


14

7

Geçmişte bu tür bir sorunla uğraşmak zorunda kaldım ve 2 ilginç yaklaşım olabileceğini düşünüyorum:

  • Süreklileştirme: sembolik özellikleri bir tam sayı dizisi ile dönüştürün. Bunu yapmanın, hepsi bu makalede açıklanan çeşitli yolları vardır . NBF, VDM ve MDV algoritmalarını deneyebilirsiniz.

  • Özelleştirme: Sürekli özellikleri sembolik değerlere dönüştürür. Yine, birçok algoritma ve bu konuda iyi bir ders bu yazı olacaktır . En sık kullanılan yöntemin Holte 1R olduğuna inanıyorum, ancak kesin olarak bilmenin en iyi yolu ROC eğrilerine EWD, EFD, ID, LD veya NDD gibi algoritmalara bakmak.

Tüm özelliklerinizi aynı alanda topladığınızda, olağan bir kümelenme problemi haline gelir.

Süreklileştirme veya ayrıklaştırma arasında seçim yapmak veri kümenize ve özelliklerin neye benzediğine bağlıdır, bu yüzden söylemesi biraz zor, ancak size bu konuda verdiğim makaleleri okumanızı tavsiye ediyorum.


4

K-aracı açıkçası, anlamsız olduğu anlamına gelir (anlamsızdır). Aynı GMM için de geçerli.

Mesafeye dayalı kümeleme algoritmalarını uygun mesafeli fonksiyonlarla, örneğin DBSCAN ile denemek isteyebilirsiniz.

Asıl zorluk mesafe fonksiyonunu bulmak!

Farklı bir uzaklık fonksiyonunu k-aracına yerleştirebilseniz de, muhtemelen anlamlı olamayacak olan ortalamayı hesaplayacaktır (ve muhtemelen ayrı değerler için bir mesafe fonksiyonuna bulaştırır).

Her neyse, ilk önce "benzer" ne olduğunu tanımlamaya odaklanın . Sonra bu benzer tanımı kullanarak küme!


2

Uzaklık matrisi ile çalışmak konusunda rahatsanız num_of_samples x num_of_samples, kullanabilirsiniz random forests.

Click burada başlıklı bir referans kağıdı Unsupervised learning with random forest predictors.

Buradaki fikir, shufflingorijinal veri setindeki değerlere göre sentetik bir veri kümesi oluşturmak ve her ikisini ayırmak için bir sınıflayıcıyı eğitmektir. Sınıflandırma sırasında inter-sample distance matrixen sevdiğiniz kümeleme algoritmasını test edebileceğiniz bir tane elde edersiniz.


-2

Kabul edilecek karma yaklaşım: 1) Verileri 2 sınıfa ayırmak için sınıflandırma tekniğini (C4.5 karar ağacı) kullanın. 2) Tamamlandıktan sonra, kategorik değişkenleri bırakın ve kümeleme için sürekli değişkenlerle devam edin.


Önerinizi takip edemedim. Hangi iki sınıf ve bu nasıl yardımcı olacak?
KarthikS

Bence Swapnil Soni söylemesi gereken şey, sınıflandırma tekniğini bir kez iki sınıfa ayırmak için kullandığımızdır. Daha sonra sınıflandırma çıktısının etiketini ikili değişken olarak kullanabiliriz. Böylece, tüm kategorik değişken yerine gösterge niteliğinde bir ikili değişken elde edersiniz ve ardından kümeleme algoritmanız veriyle devam eder (sürekli artı artı 1 ikili değişkenden oluşan). Benim yorumum olsa yanlış olabilir.
Tusharshar

Tamamen iyi!
Swapnil Soni
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.