SIFT tanımlayıcı hakkındaki hikayenin ardındaki hikaye nedir?


9

Aşağıdakiler Lowe 2004 belgesinden alınmıştır ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ).

Açık bir yaklaşım, kilit nokta çevresindeki yerel görüntü yoğunluklarını uygun ölçekte örneklemek ve bunları normalleştirilmiş bir korelasyon ölçüsü kullanarak eşleştirmek olacaktır. Bununla birlikte, görüntü yamalarının basit korelasyonu, afin veya 3D bakış açısı değişikliği veya rijit olmayan deformasyonlar gibi numunelerin yanlış kaydına neden olan değişikliklere karşı oldukça duyarlıdır. Edelman, Intrator ve Poggio (1997) tarafından daha iyi bir yaklaşım gösterilmiştir. Önerilen sunumları, özellikle birincil görme korteksindeki kompleks nöronlar olmak üzere bir biyolojik görme modeline dayanıyordu.Bu karmaşık nöronlar, belirli bir yönelimde ve uzamsal frekansta bir degradeye yanıt verir, ancak degradenin retina üzerindeki yerinin, tam olarak lokalize olmak yerine küçük bir alıcı alan üzerinde kaymasına izin verilir. Edelman ve diğ. bu karmaşık nöronların işlevinin, 3D nesnelerin bir dizi bakış açısından eşleşmesine ve tanınmasına izin vermek olduğunu varsaydı.

SIFT tanımlayıcısını anlamaya çalışıyorum. Önceki aşamayı anlıyorum (anahtar nokta detektörü).

Neden bu şekilde uygulandığını bilmiyorum. Hikayenin ardındaki hikayeyi bilmek istiyorum.

Yanıtlar:


1

ilgi alanından elde edilen tanımlayıcı elde edilen ölçekte.64×64

Bu bölgesini yamaya böler ve bu da yamaya yol açar.64×6416×16

Her bir yama için degradeleri hesaplıyoruz ve daha sonra degradelerin baskın yönünü (bazı detaylara sahip) buluyoruz, daha sonra baskın yönü referans yönü olarak alarak, her biri 45 dereceye sahip 360 derecelik 8 açısal bölgeye böleriz, daha sonra her bir açısal bölgede yer alan her degradenin büyüklüğü.

Bunu dağılım veya gradyan yönünün 8 bin histogramı olarak düşünebiliriz (güçlü degradelerin dağıtım hesaplamasında daha yüksek ağırlıkla kullanmamız gerektiğinden daha fazla bilgiye sahip olmamız gerekir, bu nedenle büyüklüklerini büyüklüklerinin toplamına yol açan ağırlık olarak kullanırız). Sonra bu histogramları normalleştireceğiz.

Her bir yama için sonunda 8 bölmeli bir histogramımız var ve 128 adet tanımlayıcıya yol açan 16 yamamız var.

Baskın yön bularak tanımlayıcımız rotasyon değişmez olur. Degradeleri kullanarak tanımlayıcımız taban çizgisi aydınlatması ile ilgili değişmez olur ve elde edilen histogramları normalleştirerek tanımlayıcımız görüntünün kontrastına değişmez hale gelir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.