Yıl boyunca web sitesi kullanım sürelerinin araştırılmasını içeren bir veri analizi projesi yürütüyorum. Yapmak istediğim şey, kullanım şekillerinin ne kadar "tutarlı" olduğunu, örneğin haftada 1 saat boyunca kullanmayı içeren bir desene ne kadar yakın olduklarını veya her seferinde 10 dakika kullanmayı içeren bir deseni karşılaştırmaktır. haftada bir kez. Hesaplanabilecek birkaç şeyin farkındayım:
- Shannon entropisi: sonuçtaki "kesinlik" in ne kadar farklı olduğunu, yani bir olasılık dağılımının muntazam olandan ne kadar farklı olduğunu ölçer;
- Kullback-Liebler sapması: bir olasılık dağılımının diğerinden ne kadar farklı olduğunu ölçer
- Jensen-Shannon ıraksama: KL-ıraksamaya benzer, ancak sonlu değerler döndürdüğü için daha kullanışlıdır
- Smirnov-Kolmogorov testi : sürekli rasgele değişkenler için iki kümülatif dağılım fonksiyonunun aynı örnekten gelip gelmediğini belirleyen bir test.
- Ki-kare testi: bir frekans dağılımının beklenen bir frekans dağılımından ne kadar farklı olduğuna karar vermek için bir uyum iyiliği testi.
Yapmak istediğim gerçek kullanım sürelerinin (mavi) dağıtımdaki ideal kullanım sürelerinden (turuncu) ne kadar farklı olduğunu karşılaştırmak. Bu dağılımlar ayrıktır ve aşağıdaki versiyonlar olasılık dağılımları olacak şekilde normalleştirilmiştir. Yatay eksen, bir kullanıcının web sitesinde geçirdiği süreyi (dakika olarak) temsil eder; bu yılın her günü için kaydedilmiştir; kullanıcı web sitesine hiç gitmediyse, bu sıfır süre olarak sayılır, ancak bunlar frekans dağılımından kaldırılır. Sağda birikimli dağılım işlevi vardır.
Benim tek sorunum, JS-divergence sonlu bir değer döndürmek için alabilirsiniz rağmen, farklı kullanıcılara bakmak ve kullanım dağıtımları ile ideal dağıtım karşılaştırmak, çoğunlukla aynı değerleri (bu nedenle iyi değil) olsun ne kadar farklı olduklarının göstergesi). Ayrıca, frekans dağılımları yerine olasılık dağılımlarına normalleştirildiğinde oldukça fazla bilgi kaybedilir (bir öğrencinin platformu 50 kez kullandığını, ardından mavi dağılımın çubukların toplam uzunluklarının 50'ye eşit olacağı şekilde dikey olarak ölçeklendirilmesi gerektiğini ve turuncu çubuğun yüksekliği 1 yerine 50 olmalıdır. "Tutarlılık" ile kastettiğimiz şeyin bir kısmı, bir kullanıcının web sitesine ne sıklıkta gittiğinin, siteden ne kadar çıktığını etkileyip etkilemediğidir; web sitesini kaç kez ziyaret ettikleri kaybolursa, olasılık dağılımlarını karşılaştırmak biraz şüphelidir; bir kullanıcının süresinin olasılık dağılımı "ideal" kullanıma yakın olsa bile, bu kullanıcı platformu yıl boyunca yalnızca 1 hafta boyunca kullanmış olabilir, ki bu tartışmasız çok tutarlı değildir.
İki frekans dağılımını karşılaştırmak ve ne kadar benzer (veya farklı) olduklarını karakterize eden bir tür metriği hesaplamak için iyi bilinen teknikler var mı?