4'ü ayrık değerler olan 10 boyuta sahip bir veri kümesi X'e sahibim. Aslında, bu 4 ayrı değişken sıralıdır, yani daha yüksek bir değer daha yüksek / daha iyi bir anlam ifade eder.
Bu ayrık değişkenlerin 2'si, bu değişkenlerin her biri için, örneğin 11 ila 12 arasındaki mesafenin, 5 ila 6 arasındaki mesafeyle aynı olmadığı anlamında kategorize edilmiştir. mutlaka lineer değil (aslında, gerçekten tanımlanmış değil).
Sorum şu:
- Hem ayrık hem de sürekli değişkenler içeren bu veri kümesine ortak bir kümeleme algoritması (örn. K-Means ve sonra Gaussian Mixture (GMM)) uygulamak iyi bir fikir midir?
Değilse:
- Ayrık değişkenleri kaldırmalı mıyım ve sadece sürekli olanlara mı odaklanmalıyım?
- Sürekli olanları ayrıklaştırmam ve ayrık veriler için kümeleme algoritması kullanmalı mıyım?