Momentleri kullanarak bir tamsayı akışı için yaklaşık miktarları hesapla?


20

göç math.stackexchange .

Uzun bir tamsayı akışı işliyorum ve çok fazla veri saklamadan akış için çeşitli yüzdelikleri yaklaşık olarak hesaplayabilmek için birkaç dakikayı izlemeyi düşünüyorum. Birkaç andan itibaren persentilleri hesaplamanın en basit yolu nedir? Yalnızca az miktarda veri depolamayı içeren daha iyi bir yaklaşım var mı?


2
Akışınızın dağıtım özellikleri hakkında özel bir şey biliyor musunuz? Örneğin, bunlar olumlu mu? Sınırlı? Verebileceğiniz diğer ayrıntılar yardımcı olacaktır. Anların hesaplanması ve bir akış için saklanması oldukça kolaydır. Burada, gerçekte yapmaya çalıştığınız gibi görünen bir akıştan kantilleri doğrudan tahmin etmekle ilgili önceki sorular da var. Bunları arayabilir ve bunlara bakabilirsiniz.
kardinal

İşleme sürelerini temsil ederler, bu nedenle pozitiftir ve sistemde bir tür teknik sorun veya aşırı yüklenme olmadıkça çoğunlukla sıkı bir şekilde kümelenir. Kantil soruları arayacağım; yeterince iyi olabilirler. Hala keyfi bir yüzde ile ilişkili değeri hesaplamak için anlardan nasıl geçeceğini merak ediyorum. Anları saklamanın kolay olduğunu biliyorum, bilmediğim onları nasıl kullanacağım.
jonderry

Bu soruyu gördün mü ?
kardinal

Yanıtlar:


15

Bunu açıkça belirtmezsiniz, ancak sorunu açıklamanızdan, yüksek önyargılı bir kantil grubunun (örneğin, 50., 90., 95. ve 99. yüzdelik dilimler) peşindesiniz gibi görünüyor.

Eğer durum buysa, Cormode ve ark. Tarafından " Eğimli Kuantillerin Veri Akışları Üzerindeki Etkili Hesaplanması" bölümünde açıklanan yöntemle çok başarılı oldum . Bu, az bellek gerektiren hızlı bir algoritmadır ve uygulanması kolaydır.

Yöntem, Greenwald ve Khanna tarafından, giriş akışının küçük bir örneğini ve örnekteki değerlerin sıralamasında üst ve alt sınırları koruyan daha önceki bir algoritmaya dayanmaktadır. Birkaç dakikadan daha fazla alan gerektirir, ancak dağıtımın ilginç kuyruk bölgesini doğru bir şekilde tanımlamak çok daha iyi olacaktır.


1
Evet, bu gerçekten de yol. Aslında, yüksek miktarlarda tahmin almak biraz daha kolaydır, özellikle de biçimindeki hataya tolerans göstermek istiyorsanız, burada toplam öğe sayısıdır ve \ epsilon> 0 $ bazı kullanıcılardır tanımlı hata terimiεnn
Suresh Venkatasubramanian

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.