Bloom filtrelerinin geleneksel analizi yanlış mı?


17

Bu makale , Bloom filtrelerindeki hata oranının geleneksel analizinin yanlış olduğunu iddia eder, daha sonra gerçek hata oranının uzun ve önemsiz bir analizini sağlar. Bağlantılı makale 2010 yılında yayınlandı, ancak Bloom filtrelerinin geleneksel analizinin çeşitli algoritmalar ve veri yapıları derslerinde öğretilmeye devam ettiğini gördüm.

Bloom filtrelerinin geleneksel analizi gerçekten yanlış mı?

Teşekkürler!

Yanıtlar:


36

Geleneksel analiz iyidir. "Geleneksel" analiz, eğer doğru bir şekilde açıklanırsa, bir yaklaşımdır; anahtarları filtreye eklediğinizde 0/1 olan beklenen hücre sayısını hesaplamaya ve ardından bu gerçek sayı gibi analiz etmeye dayanır. Mesele şu ki, 0 (veya 1) olan hücre sayısı beklentileri etrafında sıkı bir şekilde yoğunlaşmaktadır, bu yüzden iyi bir yaklaşımdır. Bu iyi biliniyordu ve bence, Andrei Broder ile olan anket makalemde bile bulunabilir.

Bu makale, gerçekten de bir Bloom filtresinin performansının rastgele bir değişken olduğunu (0/1 girişlerin gerçek kısmına karşılık gelen) ve bu performansı tam olarak herhangi bir nedenle hesaplamak istiyorsanız, birleştiriciyi yapmanız gerektiğini söylüyor. Daha küçük filtreler için tartışmasız önemsiz bir fark görürsünüz.

Bu yazının yazarlarıyla konuştum. Analizleri iyi ve iyi (derin ya da yeni olmadığını iddia etsem de); "geleneksel analizin yanlış olduğu" yönündeki motivasyonları bence abartılıydı.


15
Düzen şimdi evrene geri yüklendi :). Ve cstheory'ye hoş geldin, Michael.
Suresh Venkat

12

Michael'ın cevabına , karma işlevlerinin ayrık aralıklara sahip olduğu bölünmüş Bloom filtreleri için, geleneksel analiz, yaklaşık olarak herhangi bir konsantrasyon veya herhangi bir konsantrasyon sınırı olmaksızın doğrudur. Bunun nedeni, farklı karma işlevler için hata olasılıklarının ilişkili olmaktan ziyade bağımsız hale gelmesidir. Bölünmüş Bloom filtreleri için alan / hata değişimi, geleneksel Bloom filtreleriyle aynıdır, bu yüzden bunun öğretim için iyi bir varyant olduğunu düşünüyorum.


2
Bloom filtreleri dışında, count-min çizimi ile aynı fikir gibi görünüyor.
templatetypedef
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.