SURF Özelliklerini Hesaplama Sürecini Anlama


9

Yani, SURF (Bay, Ess, Tuytelaars, Van Gool: Hızlandırılmış Sağlam Özellikler (SURF) ) adlı makaleyi okuyordum ve aşağıdaki paragrafı anlayamıyorum :

Kutu filtrelerinin ve tümleşik görüntülerin kullanılması nedeniyle, aynı filtreyi daha önce filtrelenmiş bir katmanın çıktısına yinelemeli olarak uygulamak zorunda değiliz, bunun yerine herhangi bir boyuttaki kutu filtrelerini doğrudan orijinal görüntüye tam olarak aynı hızda uygulayabiliriz ve paralel olsa bile (ikincisi burada kullanılmasa da). Bu nedenle, ölçek alanı, görüntü boyutunu yinelemeli olarak küçültmek yerine filtre boyutunun büyütülmesiyle analiz edilir, Şekil 4.

This is figure 4 in question.

Şekil 4

Not: Kağıdın tümleşik görüntü açıklaması vardır, ancak kağıdın tüm içeriği yukarıdaki belirli paragrafa dayanmaktadır. Eğer kimse bu makaleyi okuduysa, burada neler olduğunu kısaca anlatabilir misiniz? Tüm matematiksel açıklama, önce iyi bir kavrayışa sahip olmak için oldukça karmaşıktır, bu yüzden biraz yardıma ihtiyacım var. Teşekkürler.

Düzenleme, birkaç sorun:

1.

Her oktav, sabit sayıda ölçek seviyesine bölünür. İntegral görüntülerin ayrık doğası nedeniyle, takip eden 2 ölçek arasındaki minimum ölçek farkı, türetme yönünde (x veya y), kısmi ikinci dereceden türevin pozitif veya negatif loblarının uzunluğuna bağlıdır. filtre boyutu uzunluğunun üçte biri. 9x9 filtresi için, bu uzunluk lo 3'tür. Birbirini izleyen iki seviye için, boyutu düzensiz tutmak ve böylece merkezi pikselin varlığını sağlamak için bu boyutu en az 2 piksel (her tarafta bir piksel) artırmalıyız. . Bu, maske boyutunun toplamda 6 piksel artmasına neden olur (bkz. Şekil 5).

Figure 5

Resim 5

Verilen bağlamdaki çizgileri anlayamadım.

İki ardışık seviye için, boyutu düzensiz tutmak ve böylece merkezi pikselin varlığını sağlamak için bu boyutu en az 2 piksel (her tarafta bir piksel) artırmalıyız.

Görüntünün uzunluğuyla bir şey yapmaya çalıştıklarını biliyorum, hatta garip hale getirmeye çalışıyorlarsa, piksel eğiminin maksimum veya minimumunu hesaplayabilecek merkezi bir piksel var. İçeriğe dayalı anlamı konusunda biraz meraklıyım.

2.

Tanımlayıcıyı hesaplamak için Haar dalgacı kullanılır.

Haar Dalgacık

Orta bölge nasıl düşük Σ dx ama yüksek Σ |dx|.

3.

Bir diğeri

Yaklaşık bir filtreye sahip olmanın gerekliliği nedir?

4. Ben filtre boyutunu bulmak yolu ile hiçbir sorunum yok. Ampirik olarak bir şey "yaptılar". Ancak, bu çizgi parçası ile bazı nagging sorunum var

Önceki bölümde sunulan 9x9 filtrenin çıktısı, s = 1.2 ölçeği (σ = 1.2 ile yaklaşık Gauss türevleri) olarak ifade edeceğimiz ilk ölçek katmanı olarak kabul edilir.

Σ değerini nasıl öğrendiler? Dahası, aşağıdaki görüntüde gösterilen ölçeklendirme hesaplaması nasıl yapılıyor.Bu görüntüyü belirtmemizin nedeni s=1.2, kökenini açıkça belirtmeden, yinelenen değerin devam etmesidir. Resmi Ölçeklendir

5.L Gausssian filtresinin ve görüntünün ikinci dereceden gradyanının konveksiyonu olan temsil edilen Hessen Matrisi .

Ancak "yaklaşık" belirleyicinin sadece ikinci dereceden Gauss filtresini içeren terimleri içerdiği söylenir.

Değeri w:

Benim belirleyicimin neden yukarıda olduğu gibi hesaplandığı ve yaklaşık Hessian ve Hessian matrisi arasındaki ilişki nedir.


Hey! Sorularınıza yazar isimlerini ve makale başlığını ekledim, umarım umursamazsınız. İlk olarak, bağlantı kopsa bile makaleyi aranabilir hale getirir. İkincisi, araştırma yapan biri olarak, yazarların isimlerini ve yayın isimlerini kredilendirmek, çalışmalarını kabul etmek için yapabileceğimiz en az şey olduğunu düşünüyorum :)
penelope

@penelope: İnsanların beni unutulmaya indireceğinden yarı korktum.
motiur

Bence bu çok hoş bir soru, son zamanlarda daha ilginç olanlardan biri. SURF'a hiç girmedim, ama yarın bir bakmaya çalışabilir ve katkıda bulunup bulunamayacağımı görebilirim, soru aslında ilgimi çekti :) ve PS: Eğer bunu bir "resmi" Uni projesinin bir parçası olarak yapıyorsanız , Eminim amiriniz size memnuniyetle yardımcı olacaktır (özellikle Master seviyesindeyseniz). İşlerinin bir kısmı olduğunu nasıl bilimsel literatürü okumak için size öğretmek.
penelope

PPS: entegre resim ve kutu filtresi terimlerine kısa bir açıklama eklemek için sorunuzu düzenlemek isteyebilirsiniz : anladığınızı anlamak muhtemelen anlamadığınızı anlamamıza yardımcı olacaktır;)
penelope

@penelope: Sen çok hoş bir kız / erkeksin, her neyse. Ve hayır, bu makalenin bir literatür taraması yapmak zorundayım, hem 2004 hem de 1999'da David Lowe tarafından yazılmış olanı okudum. Bu oldukça mantıklıydı, ayrıca bu konuda güzel bir youtube dersi vardı. Sorun şu ki bu yazıda tonlarca matematiksel terim var, SURF. Kafanızda bir matematiksel model yoksa, ana fikri görmek zor.
motiur

Yanıtlar:


10

SURF nedir?

Neler olup bittiğini doğru bir şekilde anlamak için, SIFT'e de aşina olmanız gerekir : SURF temel olarak SIFT'nin bir yaklaşımıdır. Şimdi asıl soru şu: SIFT nedir? .

SIFT, hem keypoint dedektörü ve bir keypoint açıklayıcısı . Dedektör kısmında, SIFT aslında Harris köşesi gibi klasik köşe dedektörlerinin çok ölçekli bir varyantıdır ve bu da ölçeği otomatik olarak ayarlama yeteneğine sahiptir. Daha sonra, bir konum ve bir yama boyutu (ölçekden türetilmiş) verildiğinde, tanımlayıcı kısmı hesaplayabilir.

SIFT, yerel olarak afin görüntü parçalarını eşleştirmede çok iyidir, ancak bir dezavantajı vardır: hesaplamak pahalı (yani uzun). Gauss ölçek uzayının hesaplanmasında (dedektör kısmında), daha sonra gradyan yönünün histogramlarının hesaplanmasında (açıklayıcı kısım için) büyük miktarda zaman harcanır.

Hem SIFT hem de SURF, otomatik ölçek (yani, Gauss boyutları) seçimiyle Gauss'luların farkı olarak görülebilir. Bu, önce giriş görüntüsünün farklı ölçeklerde filtrelendiği bir ölçek alanı oluşturur. Ölçek alanı, birbirini izleyen iki görüntünün bir ölçek değişikliğiyle (yani, Gauss düşük geçişli fiéter'in boyutu değiştiği) ilişkili olduğu ve ardından ölçeklerin oktavlarla (yani büyük bir değişiklikle) ilişkilendirildiği bir piramit olarak görülebilir. Gauss filtresinin boyutunda).

  • SIFT'de bu, bir sonraki oktavın ölçeğine ulaşılana kadar girişin sabit genişlikte bir Gaussian ile tekrar tekrar filtrelenmesiyle yapılır.
  • SURF'ta, tümleşik görüntü hilesi kullanımı sayesinde Gauss filtresinin boyutundan herhangi bir çalışma zamanı cezası çekmezsiniz. Böylece, her ölçekte filtrelenen görüntüyü doğrudan hesaplarsınız (sonucu önceki ölçekte kullanmadan).

Yaklaşık kısım

Gauss ölçek uzayını ve degrade yönünün histogramlarını hesaplamak uzun olduğundan, bu hesaplamaları hızlı yaklaşımlarla değiştirmek iyi bir fikirdir (SURF yazarları tarafından seçilir).

Yazarlar, küçük Gaussluların (SIFT'de kullanılanlar gibi) kare integrallerle ( kutu bulanıklığı olarak da bilinir) iyi bir şekilde tahmin edilebileceğini belirtti . Bu dikdörtgen ortalamaları, entegre görüntü hilesi sayesinde elde edilmesi çok hızlı olması için güzel bir özelliğe sahiptir.

Dahası, Gauss ölçek alanı aslında kendi başına değil , Gauss'lu bir Laplacian'a yaklaşmak için kullanılır (bunu SIFT gazetesinde bulabilirsiniz). Böylece, sadece Gauss bulanık görüntülere değil, bunların türevlerine ve farklılıklarına da ihtiyacınız var. Yani, bir Gaussian'ı bir kutu ile yaklaştırma fikrini biraz daha ileriye itersiniz: önce bir Gauss'u gerektiği kadar çok türetin, ardından her lobuna doğru boyutta bir kutu ile yaklaşık olarak yaklaşın. Sonunda bir dizi Haar özelliği elde edeceksiniz.

2 artış

Tahmin ettiğiniz gibi bu sadece bir uygulama ürünü. Amaç merkezi bir piksele sahip olmaktır. Özellik tanımlayıcı, tarif edilecek görüntü yamasının merkezine göre hesaplanır.

Orta bölge

Bir siyah ışından beyaz bir ışına giderken, Σsütundaki tüm pikselx=bir. Sonra, beyazdan siyaha giderken, karşıt meblağ var:Σsütundaki tüm pikselx=-bir. Böylece, küçük birΣx pencere için, ancak büyüklüklerin daha yüksek bir toplamı.

sihirli sayı

İlk ölçek bir bulanıklık uygulanarak elde edilir. σ=1.2(veya bazı makalelerde 1.4). Bunun nedeni, doğal (gerçek) keskin bir görüntünün, genişlik bulanıklığı çekirdeği olan ideal (kenar yumuşatma olmadan) görüntünün evrimi sonucu olduğu düşünülebilir.σ=1.2. Nereden geldiğini gerçekten hatırlayamıyorum, ancak Guoshen Yu'nun A-SIFT'deki çalışmasında da açıkça çalışıldı, bu yüzden bu sayfayı kontrol edebilirsiniz .


Açıklama için teşekkürler, bazı şeyleri temizledi, kimsenin daha ayrıntılı bir anlayışa sahip olup olmadığını göreyim.
motiur

Yeni sorularınız için cevabı düzenledim.
sansuiso

Oh evet teşekkürler, kayda değer. Kağıt çok uzun, bu yüzden bir sürü şey aynı anda gidiyor.
motiur

En son düzenlememi görmek ister misiniz?
motiur

1
Bu, ortak paylaşılan bilginin (küçük Gauss'ların kutu bulanıklıklarıyla iyi bir şekilde yaklaştığı), deneylerin (gerçek dünya görüntülerinde ilgilenilen nesnelerin min / maks boyutları) ve matematiğin (başlangıçtaki yama boyutu verildiğinde, dikdörtgenler ve uygun Gaussianlar) verilir. .
sansuiso

4

Potansiyel ilgi noktalarını tanımlamak için görüntüyü işlemek için Gauss fonksiyonu (DOG) farkı sıklıkla kullanılır, böylece onu ölçeklendirme ve yönelim için değişmez kılar.

SIFT'de görüntü piramitleri, her katmanın artan sigmadeğerlerde DOG ile filtrelenmesi ve farkın alınmasıyla oluşturulur.

Öte yandan SURF , Gaussian Laplacian (LoG) ve farklı büyüklükteki kare filtrelerle (9 * 9, 15 * 15, ...) ikinci dereceden Gauss kısmi türevlerinin çok daha hızlı bir yaklaşımını uygular . Hesaplama maliyeti filtre boyutundan bağımsızdır. Piramitte sigmadaha yüksek seviyeler için aşağı örnekleme (değişim ) yoktur , ancak sadece aynı çözünürlükteki görüntülere sahip olan filtre boyutunun üst ölçeği vardır.

DÜZENLE

Ek bir not: kağıt Yazarlar ayrıca çekirdek ile 4 yönelimleri (x, y, xy, yx) de Gauss ikinci türevi basitleştirmek [1 -2 1], [1 -2 1]', [1 -1;-1 1]ve [-1 1;1 -1]. Filtre boyutu arttığında, daha büyük olanı elde etmek için basitleştirilmiş çekirdek bölgelerini genişletmeniz yeterlidir. Ve farklı ölçeklerde DOG ile eşdeğerdir (LoG eğrisi DOG ile aynı şekildedir ve filtre boyutu genişliklerini de eşit yapar).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.