Sıkça Desen Madenciliği (FPM) problemini çözmek için algoritma geliştirmeyi bildiğim kadarıyla, iyileştirme yolunun bazı ana kontrol noktaları var. İlk olarak, Apriori algoritması 1993 yılında Agrawal ve ark. , sorunun resmileştirilmesiyle birlikte. Algoritma mümkün şerit kapalı bir miktar setleri 2^n - 1
setleri (Powerset) verileri korumak için bir kafes kullanılarak gerçekleştirilir. Yaklaşmanın bir dezavantajı, genişletilmiş her kümenin frekansını hesaplamak için veritabanını yeniden okuma gereksinimidir.
Daha sonra 1997 yılında Zaki ve ark. algoritması önerilmiştir Eclat , eklenen kafes içinde her bir kümenin elde edilen frekans. Bu, kafesin her bir düğümüne, öğeler kökten belirtilen düğüme sahip olan işlem kimlikleri kümesi eklenerek yapıldı. Başlıca katkı, her kümenin sıklığını bilmek için tüm veri kümesini yeniden okumak zorunda olmamasıdır, ancak bu tür veri yapısını inşa etmek için gereken bellek veri kümesinin boyutunu aşabilir.
2000 yılında Han ve ark. FPTree adlı bir önek ağacı veri yapısı ile birlikte FPGrowth adlı bir algoritma önerdi . Algoritma, önemli veri sıkıştırması sunarken, aynı zamanda sadece sık öğe kümelerinin (aday öğe kümesi oluşturma olmadan) verileceğini de sağlamıştır. Bu, esas olarak her işlemin öğelerini azalan düzende sıralayarak yapıldı, böylece en sık kullanılan öğeler ağaç veri yapısında en az tekrarlanan öğelerdir. Frekans sadece ağacı derinlemesine gezerken azaldığından, algoritma sık olmayan öğe kümelerini çıkarabilir .
Düzenle :
Bildiğim kadarıyla, bu son teknoloji bir algoritma olarak kabul edilebilir, ancak önerilen diğer çözümler hakkında bilmek istiyorum. FPM için başka hangi algoritmalar "en gelişmiş" olarak kabul edilir? Bu algoritmaların sezgisi / ana katkısı nedir?
FPGrowth algoritması sık kalıp madenciliğinde hala "son teknoloji" olarak kabul ediliyor mu? Değilse, hangi algoritma (lar) büyük veri kümelerinden sık veri kümelerini daha verimli bir şekilde çıkarabilir?