Klasik kümeleme ve boyutsallık azaltma algoritmalarının çoğu (hiyerarşik kümeleme, temel bileşen analizi, k-araçları, kendi kendini düzenleyen haritalar ...) özel olarak sayısal veriler için tasarlanmıştır ve girdi verileri bir öklid uzayında noktalar olarak görülür.
Bu, elbette bir sorun, çünkü gerçek dünyadaki birçok soru karışık veriler içeriyor: örneğin otobüsleri incelersek, yükseklik ve uzunluk ve motor boyutu sayılar olacak, ancak renkle de ilgilenebiliriz (kategorik değişken: mavi / kırmızı / yeşil ...) ve kapasite sınıfları (sıralı değişken: küçük / orta / büyük kapasite). Özellikle, bu farklı değişken türlerini aynı anda incelemek isteyebiliriz.
Klasik kümeleme algoslarını karışık verilere genişletmek için bir dizi yöntem vardır, örneğin hiyerarşik kümelemeye veya çok boyutlu ölçeklemeye takmak için bir Gower benzerliği veya giriş olarak bir mesafe matrisi alan diğer yöntemler. Veya örneğin bu yöntem, SOM'un karışık verilere genişletilmesi.
Sorum şu: neden sadece öklid mesafesini karışık değişkenler üzerinde kullanamıyoruz? ya da bunu yapmak neden kötü? Neden sadece kategorik değişkenleri kukla olarak kodlayamıyoruz, tüm değişkenleri gözlemler arasındaki mesafeye benzer bir ağırlığa sahip olacak şekilde normalleştiremiyoruz ve bu matrisler üzerinde olağan algoları çalıştıramıyoruz?
Bu gerçekten kolay ve hiç yapılmadı, bu yüzden çok yanlış olduğunu düşünüyorum, ama kimse bana nedenini söyleyebilir mi? Ve / veya bana bazı referanslar verir misin? Teşekkürler