Şu anda, çok kısa bir cevap için zamanım var, ama daha sonra bu konuya genişlemeye çalışacağım.
Verileriniz için bazı etiketler keşfetmek istediğiniz için yapmak istediğiniz şey bir kümelenmedir . (En azından bazı veriler için etiketlere sahip olacağınız ve geri kalanını etiketlemek istediğiniz bir sınıflandırmanın aksine).
Kullanıcılarınız üzerinde bir kümeleme gerçekleştirmek için, onları soyut bir alanda bir tür nokta olarak tanımlamanız gerekir. Daha sonra noktalar arasındaki mesafeleri ölçecek ve "yakın" olan noktaların "benzer" olduğunu söyleyecek ve bunları o alandaki yerlerine göre etiketleyeceksiniz.
Verilerinizi kullanıcı profiline benzeyen bir şeye, yani bir kullanıcı kimliğine ve ardından bu kullanıcının özelliklerini temsil eden bir sayı vektörüne dönüştürmeniz gerekir. Sizin durumunuzda, her özellik bir "web sitesi kategorisi" veya "bir ürün kategorisi" olabilir ve sayı bu özellikte harcanan dolar miktarı olabilir. Ya da bir özellik, elbette, web ve ürünün bir kombinasyonu olabilir.
Örnek olarak, kullanıcı profilini yalnızca üç özellikle hayal edelim:
- "teknik" ağlarda harcanan dolar,
- "moda" ürünlerine harcanan dolar,
- ve dolar ("bilen)" aile odaklı "weblerde" agresif "video oyunlarına harcandı.
Bu profilleri oluşturmak için, sahip olduğunuz "kategorileri" ve "anahtar kelimeleri" alakalı olduğunu düşündüğünüz özelliklerle eşleştirmeniz gerekir. Konu modelleme veya anlamsal benzerlik konularına bakın . Bu harita oluşturulduktan sonra, "gadget", "elektronik", "programlama" ve X diğer anahtar kelimelere sahip web'lere harcanan tüm dolarların ilk özelliğimizde birleştirilmesi gerektiğini belirtir; ve bunun gibi.
Özellikleri "dayatmak" korkmayın! Kullanıcıları kümeledikten sonra bunları hassaslaştırmanız ve belki de tamamen değiştirmeniz gerekir.
Kullanıcı profillerine sahip olduktan sonra, bunları k-araçlarını veya ilginç olduğunu düşündüğünüz her şeyi kullanarak kümelemeye devam edin . Hangi tekniği kullanırsanız kullanın, her küme için "temsili" noktayı elde etmekle ilgileneceksiniz. Bu genellikle o kümedeki noktaların geometrik "merkezidir".
Bu "temsili" noktaları çizin ve aynı zamanda diğer kümelerle nasıl karşılaştırıldıklarını çizin. Radar grafiği kullanmak burada çok faydalıdır. Belirgin bir özellik (nerede temsilci içinde çok belirgin olan ve diğer kümelerle karşılaştırılmasında çok belirgin olan) bir yer varsa, kümeyi çekici bir ifade ("nerds", "fashionistas" ile etiketlemenize yardımcı olacak iyi bir adaydır. , "saldırgan anneler" ...).
Bir kümeleme sorununun açık bir sorun olduğunu unutmayın, bu nedenle "doğru" bir çözüm yoktur! Ve bence cevabım çok uzun; ayrıca profillerin normalleştirilmesi ve uç değerlerin filtrelenmesi hakkında da kontrol edin.