Zaman olaylarının uzun kuyruklu dağılımı


10

Bir web sunucusunun günlüklerine sahip olduğunuzu varsayalım. Bu günlüklerde bu tür tupl'ler var:

user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...

Bu zaman damgaları, örneğin kullanıcıların tıklamalarını temsil eder. Şimdi, user1siteyi ay boyunca birden çok kez (oturumlar) ziyaret edecek ve her oturum sırasında her kullanıcının tıklamalarını alacaksınız (bir kullanıcı sitenizi ziyaret ettiğinde birden çok sayfayı tıklayacağını varsayalım).

Bu tıklama patlamalarını, bunları oluşturan oturumlara bölmek istediğinizi, ancak ek bilgi kaynağınız olmadığını, yalnızca zaman damgalarının listesini varsayalım. Aynı kullanıcıdan gelen iki tıklama arasındaki aralıkların dağılımını hesaplarsanız, uzun kuyruklu bir dağıtım elde edersiniz. Sezgisel, eğer bir "kesim parametresi", örneğin N saniye, arardım timestamp_{i+1} - timestamp{i} > N, sonra senin timestamp_{i+1}yeni oturumun başlangıcıdır.

Sorun şu ki, gerçekte bu dağılım iki değişkenin bir karışımıdır: X = "aynı oturumda iki ardışık tıklama arasındaki aralık" ve Y = "bir önceki oturumun son tıklaması ile yenisinin ilk tıklaması arasındaki aralık".

Soru, iki tıklamayı (muhtemelen biraz çakışma ile) sadece tıklamaların patlamasına bakarak ayıran bu N'yi nasıl tahmin edebilirim?


"Yalnızca tıklamaların patlamasına bakarak" demek, N dışında bir şeyi hesaplayamayacağınız anlamına mı geliyor?
jerad

Yani, tuples (kullanıcı, zaman damgası) dışında başka bilgi kaynaklarınız yok. Eşik tabanlı yöntem (delta> N'ye dayalı) sadece bir yöntem örneğidir. Belki başka bir şey mümkündür.
marcorossi

Yanıtlar:


2

Gerçekten ham değerler yerine tıklamalar arası aralıkların logaritmasını çizmelisiniz; bu dağıtımınızı düzleştirir ve dağıtımınızdaki çoklu modları bile ortaya çıkarabilir.

Sinirbilimciler tarafından nöronal ani artışların patlamasında çok benzer bir sorunu çözmek için daha ileri yaklaşımlar geliştirilmiştir. Bu klasik makale veya Google Akademik'teki diğer birçok ilgili makale .


Dağıtım loglogunu yazdırdım. Düz bir çizgi. Bu nasıl yardımcı olur? Neye bakardın? Kağıt için referans harika, teşekkürler.
marcorossi

Sadece günlük olasılık grafiğine ne dersiniz? yani aralıkları değil, sadece frekansların kaydını alın. Bu iki modu gösteriyor mu?
jerad
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.