"Sözler çantası" veya "görsel kelimeler" yaklaşımına bir göz atarım. Görüntü kategorizasyonu ve tanımlaması için giderek daha fazla kullanılmaktadır. Bu algoritma genellikle bir görüntüde SIFT noktaları gibi sağlam noktaları tespit ederek başlar. Bulunan bu noktaların çevresindeki bölge (davanızdaki 128 bit SIFT tanımlayıcı) kullanılır.
En basit biçimde, tüm tanımlayıcılardan tüm veriler tüm görüntülerden toplanabilir ve kümelenebilir, örneğin k-araçları kullanılarak. Her orijinal görüntü, bir dizi kümeye katkıda bulunan tanımlayıcılara sahiptir. Bu kümelerin sentroidleri, yani görsel kelimeler, görüntü için yeni bir tanımlayıcı olarak kullanılabilir. Temel olarak, tanımlayıcılarının katkıda bulunduğu bir görüntünün kümelerinin, görüntü kategorisini göstereceğini umuyorsunuz.
Yine, en basit durumda, bir kümeler listeniz vardır ve görüntü başına, bu kümelerden hangisinin o görüntüden tanımlayıcılar içerdiğini ve kaç tanesini hesaplarsınız. Bu, metin alımında kullanılan Terim Sıklığı / Ters Belge Sıklığı (TD / IFD) yöntemine benzer. Bu hızlı ve kirli Matlab komut dosyasına bakın.
Bu yaklaşım aktif olarak araştırılmıştır ve etrafında çok daha gelişmiş algoritmalar vardır.
VLfeat web sitesi , caltech 101 veri kümesini sınıflandıran bu yaklaşımın daha gelişmiş bir demosunu içerir. Ayrıca dikkate değer, Caltech'in kendisinin sonuçları ve yazılımıdır .