Alışveriş sepeti analiziyle ilgili olarak, asıl amacın müşteriler tarafından satın alınan en sık ürün kombinasyonlarını bireyselleştirmek olduğunu düşünüyorum. Buradaki association rules
en doğal metodolojiyi temsil eder (aslında bu amaç için geliştirilmiştir). Müşteriler tarafından satın alınan ürün kombinasyonlarını ve bu kombinasyonların kaç kez tekrarlandığını analiz etmek, karşılık gelen bir ilginçlik ölçümü ile 'koşul, sonra sonuç' türünde bir kurala yol açar. Ayrıca dikkate Log-linear models
alınan değişkenler arasındaki ilişkileri araştırmak için düşünebilirsiniz.
Kümelenmeye gelince, işinize yarayabilecek bazı bilgiler şunlardır:
İlk önce düşünün Variable clustering
. Değişken kümeleme, eşdoğrusallığı, fazlalığı değerlendirmek ve değişkenleri tek bir değişken olarak puanlanabilen kümelere ayırmak ve böylece veri azalması için kullanılır. varclus
İşlevi arayın (paket Hmisc, R)
Kümelenme kararlılığının değerlendirilmesi: clusterboot
{{package fpc} işlevi
Küme doğrulaması için uzaklık tabanlı istatistikler: cluster.stats
{{package fpc} işlevi
MBq'ın belirttiği gibi, en iyi kümeleri değerlendirmek için siluet genişliklerini kullanın. Bunu izle . Siluet genişlikleri için ayrıca bkz. Optsil işlevi.
Boşluk istatistiği ile bir veri kümesindeki kümelerin sayısını tahmin etme
Farklılık Endeksleri ve Mesafe Ölçümlerini hesaplamak için bkz. Dsvdis ve vegdist
EM kümeleme algoritması, çapraz doğrulamayla kaç kümenin oluşturulacağına karar verebilir (eğer apriori'ye kaç kümenin üretileceğini belirleyemezseniz). EM algoritmasının bir maksimum değere yakınsama garantisi verilse de, bu yerel bir maksimumdur ve mutlaka küresel maksimumla aynı olmayabilir. Küresel maksimum değeri elde etmek için daha iyi bir şans elde etmek için, tüm prosedür parametre değerleri için farklı başlangıç tahminleri ile birkaç kez tekrarlanmalıdır. Toplam log olabilirlik rakamı, elde edilen farklı son konfigürasyonları karşılaştırmak için kullanılabilir: sadece yerel maksimumların en büyüğünü seçin . EM kümesinin bir uygulamasını WEKA açık kaynaklı projesinde bulabilirsiniz.
Bu da ilginç bir bağlantı.
Ayrıca arama Buraya içinFinding the Right Number of Clusters in k-Means and EM Clustering: v-Fold Cross-Validation
Son olarak, clusterfly kullanarak kümeleme sonuçlarını keşfedebilirsiniz