İki frekans dağılımı arasındaki istatistiksel “mesafe” nasıl ölçülür?


14

Yıl boyunca web sitesi kullanım sürelerinin araştırılmasını içeren bir veri analizi projesi yürütüyorum. Yapmak istediğim şey, kullanım şekillerinin ne kadar "tutarlı" olduğunu, örneğin haftada 1 saat boyunca kullanmayı içeren bir desene ne kadar yakın olduklarını veya her seferinde 10 dakika kullanmayı içeren bir deseni karşılaştırmaktır. haftada bir kez. Hesaplanabilecek birkaç şeyin farkındayım:

  • Shannon entropisi: sonuçtaki "kesinlik" in ne kadar farklı olduğunu, yani bir olasılık dağılımının muntazam olandan ne kadar farklı olduğunu ölçer;
  • Kullback-Liebler sapması: bir olasılık dağılımının diğerinden ne kadar farklı olduğunu ölçer
  • Jensen-Shannon ıraksama: KL-ıraksamaya benzer, ancak sonlu değerler döndürdüğü için daha kullanışlıdır
  • Smirnov-Kolmogorov testi : sürekli rasgele değişkenler için iki kümülatif dağılım fonksiyonunun aynı örnekten gelip gelmediğini belirleyen bir test.
  • Ki-kare testi: bir frekans dağılımının beklenen bir frekans dağılımından ne kadar farklı olduğuna karar vermek için bir uyum iyiliği testi.

Yapmak istediğim gerçek kullanım sürelerinin (mavi) dağıtımdaki ideal kullanım sürelerinden (turuncu) ne kadar farklı olduğunu karşılaştırmak. Bu dağılımlar ayrıktır ve aşağıdaki versiyonlar olasılık dağılımları olacak şekilde normalleştirilmiştir. Yatay eksen, bir kullanıcının web sitesinde geçirdiği süreyi (dakika olarak) temsil eder; bu yılın her günü için kaydedilmiştir; kullanıcı web sitesine hiç gitmediyse, bu sıfır süre olarak sayılır, ancak bunlar frekans dağılımından kaldırılır. Sağda birikimli dağılım işlevi vardır.

Web sitesi kullanım verilerinin ideal kullanım verilerine göre dağılımı

Benim tek sorunum, JS-divergence sonlu bir değer döndürmek için alabilirsiniz rağmen, farklı kullanıcılara bakmak ve kullanım dağıtımları ile ideal dağıtım karşılaştırmak, çoğunlukla aynı değerleri (bu nedenle iyi değil) olsun ne kadar farklı olduklarının göstergesi). Ayrıca, frekans dağılımları yerine olasılık dağılımlarına normalleştirildiğinde oldukça fazla bilgi kaybedilir (bir öğrencinin platformu 50 kez kullandığını, ardından mavi dağılımın çubukların toplam uzunluklarının 50'ye eşit olacağı şekilde dikey olarak ölçeklendirilmesi gerektiğini ve turuncu çubuğun yüksekliği 1 yerine 50 olmalıdır. "Tutarlılık" ile kastettiğimiz şeyin bir kısmı, bir kullanıcının web sitesine ne sıklıkta gittiğinin, siteden ne kadar çıktığını etkileyip etkilemediğidir; web sitesini kaç kez ziyaret ettikleri kaybolursa, olasılık dağılımlarını karşılaştırmak biraz şüphelidir; bir kullanıcının süresinin olasılık dağılımı "ideal" kullanıma yakın olsa bile, bu kullanıcı platformu yıl boyunca yalnızca 1 hafta boyunca kullanmış olabilir, ki bu tartışmasız çok tutarlı değildir.

İki frekans dağılımını karşılaştırmak ve ne kadar benzer (veya farklı) olduklarını karakterize eden bir tür metriği hesaplamak için iyi bilinen teknikler var mı?


4
Kendinize kayıp fonksiyonunuzun ne olduğunu (yani, kullanım modelinin ideal kötülükten ne kadar farklı olduğunu ve kötülük miktarının ne tür bir ayrışma olduğuna nasıl bağlı olduğunu) sorarak ve metriğinizi tasarlayarak başlamak isteyebilirsiniz. etrafında.
Birikim

Yanıtlar:


12

Wasserstein metriği olarak da bilinen Dünya taşıyıcısının mesafesiyle ilgilenebilirsiniz . R ( pakete bakın) ve Python'da uygulanır . Ayrıca üzerinde bir dizi iplik var .emdist

Merck hem sürekli hem de ayrık dağıtımlar için çalışır. emdistR paket ayrık dağıtımlarında çalışır.

χ2

χ2


Neden bu belirli mesafe? Herhangi bir sürekli dağıtım için tasarlanmış gibi görünüyor. OP bir frekans dağılımına sahiptir, öyleyse neden ki-kare gibi daha "ayrık" bir mesafe olmasın?
user2974951

@ user2974951: yeterince adil. Düzenlememe bakın.
Stephan Kolassa

Lp

Lp

3

İki dağıtımın her birinden rastgele bir örnekleme yaparsanız, aralarındaki farkı hesaplayabilirsiniz. Bunu birkaç kez tekrarlarsanız (değiştirerek), bulunduğunuz tüm bilgileri içeren farklılıklar dağıtabilirsiniz. Bu dağılımı çizebilir ve istediğiniz herhangi bir özet istatistikle (ortalamalar, medyanlar vb.) Karakterize edebilirsiniz.


1
Böyle bir prosedür için bir isim var mı?
user2974951

4
Birinin keyfi bir dağılım için farklılıkların dağılımının ve kendisinin farklı keyfi dağılımlar için farklı olacağı gerçeğini nasıl açıklayabileceğini merak ediyorum; U (0,1) 'e karşı kendini N (0,1)' e göre kendisi düşünün. Bu nedenle, iki farklı dağılımı karşılaştıracağınız farklılıkların dağılımını, benzersiz bir taban çizgisi olmadan değerlendirmek zor olacaktır. Gözlemler eşlenirse sorun kaybolursa, taban çizgisi sıfırda bir birim kütle olur.
Richard Hardy

@ user2974951 Oldukça basit ve açıkça bootstrapping ile ilgili olduğundan eminim. Ama tam olarak ne diyeceğimi bilmiyorum.
mkt - Monica

1
mkt, açıklaman için teşekkürler. Sadece uğruna tartışmak istemeden, benzersiz bir temel çizgisi olmadan bir cetvelimizin olmadığını hala düşünüyorum. Ama ben bunu bırakacağım. Zaten fikrinizde hoş bir şey var.
Richard Hardy

1
@RichardHardy Buradaki takası takdir ediyorum ve haklı olabilirsin. Bunu daha fazla düşünmem gerekecek.
mkt - Monica

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.