Bir web sitesini benzersiz ziyaret edenler bir güç yasasına uyuyor mu?

Birinci öğenin, en çok ziyaret sayısına sahip benzersiz IP tarafından belirli bir süre içinde bir web sitesine yapılan ziyaretlerin sayısı olduğu sıralı bir vektörüm olduğunu varsayalım, ikinci öğe, ikinci ile benzersiz IP'nin ziyaret sayısıdır. en fazla ziyaret vb. Site başına varyasyonlar olabileceğini anlıyorum, ancak genel olarak bu vektörün şekli için varsayılan bir model var mı? Örneğin, bir güç yasası dağıtımını takip ediyor mu?

web power-law

— Jon Smark
kaynak

IP'ler, dinamik adresleme ve çeşitli diğer sorunlar (birden çok bilgisayar kullanan kişiler gibi) nedeniyle özellikle iyi eşleşmeyecektir. Bu hipotezleri test etmek istersem, muhtemelen IP adresi yerine ziyaretçi kimliğini kullanırdım.

— richiemorrisroe

Hayır, bir web sitesini benzersiz ziyaret edenler bir güç yasasına uymaz.

Son birkaç yılda, güç yasası iddialarının test edilmesinde artan bir titizlik söz konusudur (örneğin, Clauset, Shalizi ve Newman 2009). Görünüşe göre, geçmiş iddialar genellikle iyi test edilmedi ve verileri bir log-log ölçeğinde çizmek ve düz bir çizgi göstermek için "göz küresi testine" güvenmek yaygındı. Artık resmi testler daha yaygın olduğu için, birçok dağıtım güç yasalarına uymamaya başladı.

Web'deki kullanıcı ziyaretlerini incelediğimi bildiğim en iyi iki referans Ali ve Scarr (2007) ve Clauset, Shalizi ve Newman (2009).

Ali ve Scarr (2007) , bir Yahoo web sitesinde rastgele bir kullanıcı tıklaması örneğine baktılar ve şu sonuca vardı:

Hakim bilgelik, web tıklamalarının ve sayfa görüntülemelerinin dağılımının ölçeksiz bir güç yasası dağıtımını izlemesidir. Bununla birlikte, verilerin istatistiksel olarak önemli ölçüde daha iyi bir tanımının ölçeğe duyarlı Zipf-Mandelbrot dağılımı olduğunu ve bunların karışımlarının uygunluğu daha da arttırdığını bulduk. Önceki analizlerin üç dezavantajı vardır: küçük bir aday dağıtım seti kullandılar, güncel olmayan kullanıcı web davranışını analiz ettiler (1998 dolaylarında) ve şüpheli istatistiksel metodolojiler kullandılar. Daha iyi bir montaj dağılımının bir gün bulunamayacağını engelleyemesek de, ölçeğe duyarlı Zipf-Mandelbrot dağılımının verilere ölçeksiz güç yasası veya Zipf'den istatistiksel olarak önemli ölçüde daha güçlü bir uyum sağladığından emin olabiliriz. Yahoo alanından çeşitli sektörler.

Burada, bir ay boyunca tek tek kullanıcı tıklamalarının histogramı ve karşılaştırılan farklı modellerle bir günlük kaydı grafiğinde aynı verileri bulunur. Veriler, ölçeksiz bir güç dağıtımından beklenen düz bir log-log hattında değil.

Ali ve Scarr'dan Şekil 2 ve 4

Clauset, Shalizi ve Newman (2009) güç yasası açıklamalarını, olasılık oranı testleri kullanarak alternatif hipotezlerle karşılaştırmış ve hem web isabetleri hem de bağlantıları "bir güç yasasına uyduğu düşünülemez" sonucuna varmıştır. Birincisine ilişkin veriler, tek bir günde America Online İnternet hizmetinin müşterileri tarafından yapılan web isabetleridir ve ikincisi, yaklaşık 200 milyon web sayfasının 1997 web taramasında bulunan web sitelerine bağlantılardı. Aşağıdaki resimler, P (x) kümülatif dağılım fonksiyonlarını ve maksimum olabilirlik güç kanunlarını vermektedir.

resim açıklamasını buraya girin

Her iki veri seti için de Clauset, Shalizi ve Newman, dağılımın aşırı kuyruğunu değiştirmek için üstel kesiklerle güç dağılımlarının, saf güç yasası dağıtımlarından açıkça daha iyi olduğunu ve log-normal dağılımların da uygun olduğunu bulmuşlardır. (Üstel ve gerilmiş üstel hipotezlere de baktılar.)

Elinizde bir veri kümeniz varsa ve sadece boşta meraklı değilseniz, farklı modellere uymalı ve bunları karşılaştırmalısınız (R: pchisq (2 * (logLik (model1) - logLik (model2)), df = 1, daha düşük. kuyruk = YANLIŞ)). İtiraf ediyorum, sıfır ayarlı bir ZM modelini nasıl modelleyeceğimize dair hiçbir fikrim yok. Ron Pearson ZM dağıtımları hakkında blog yazdı ve görünüşe göre bir R paketi zipfR var. Ben, muhtemelen negatif bir binom modeliyle başlardım ama gerçek bir istatistikçi değilim (ve görüşlerini çok isterim).

(Ayrıca, verinin taranması programları ve birçok insanın bilgisayarını temsil eden IP adresleri gibi, verilerin bireysel insan davranışıyla ilgisi olmayan faktörlerden etkileneceğini belirten ikinci yorumcu @richiemorrisroe'ya bakmak istiyorum.)

Bahsedilen makaleler:

— MattBagg
kaynak

@MattBag, İlginç görünüyor, bunu bu vaka istatistiklerinde deneyecek. Stackexchange.com/q/41286/13201

— FredrikD