Bir web sunucusunun günlüklerine sahip olduğunuzu varsayalım. Bu günlüklerde bu tür tupl'ler var:
user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...
Bu zaman damgaları, örneğin kullanıcıların tıklamalarını temsil eder. Şimdi, user1
siteyi ay boyunca birden çok kez (oturumlar) ziyaret edecek ve her oturum sırasında her kullanıcının tıklamalarını alacaksınız (bir kullanıcı sitenizi ziyaret ettiğinde birden çok sayfayı tıklayacağını varsayalım).
Bu tıklama patlamalarını, bunları oluşturan oturumlara bölmek istediğinizi, ancak ek bilgi kaynağınız olmadığını, yalnızca zaman damgalarının listesini varsayalım. Aynı kullanıcıdan gelen iki tıklama arasındaki aralıkların dağılımını hesaplarsanız, uzun kuyruklu bir dağıtım elde edersiniz. Sezgisel, eğer bir "kesim parametresi", örneğin N saniye, arardım timestamp_{i+1} - timestamp{i} > N
, sonra senin timestamp_{i+1}
yeni oturumun başlangıcıdır.
Sorun şu ki, gerçekte bu dağılım iki değişkenin bir karışımıdır: X = "aynı oturumda iki ardışık tıklama arasındaki aralık" ve Y = "bir önceki oturumun son tıklaması ile yenisinin ilk tıklaması arasındaki aralık".
Soru, iki tıklamayı (muhtemelen biraz çakışma ile) sadece tıklamaların patlamasına bakarak ayıran bu N'yi nasıl tahmin edebilirim?