Ankraj Daha Hızlı RCNN


10

Ankraj hakkında konuşurken Daha Hızlı RCNN belgesinde, "referans kutuları piramitleri" kullanarak ne anlama geliyorlar ve bu nasıl yapılır? Bu sadece W * H * k bağlantı noktalarının her birinde bir sınırlama kutusunun üretildiği anlamına mı geliyor?

Burada W = genişlik, H = yükseklik ve k = en boy oranı * num ölçek

kağıda bağlantı: https://arxiv.org/abs/1506.01497


Bu çok iyi bir soru.
Michael R.Chickick

Yanıtlar:


10

Açıklanan Çapalar

Çapalar

Şimdilik, "referans kutuları piramitleri" nin süslü terimini görmezden gelin, çapalar Bölge Teklif Ağına beslenecek sabit boyutlu dikdörtgenlerden başka bir şey değildir. Çapalar son kıvrımlı özellik haritası üzerinde tanımlanır, yani vardır, ancak görüntüye karşılık gelir. Her bir çapa için RPN, çapayı doğru konuma taşımak ve yeniden boyutlandırmak için genel olarak bir nesne ve dört düzeltme koordinatı içerme olasılığını tahmin eder. Ancak çapaların geometrisi RPN ile nasıl bir şey yapmak zorunda? (HfeaturemapWfeaturemap)(k)

Çapalar Kayıp Fonksiyonunda Görünür

RPN eğitilirken, önce her bir sabitleyiciye bir ikili sınıf etiketi atanır. İle Çapalar Kavşak-over-Union ( iou belirli bir eşiğin daha yüksek bir çığır gerçeği kutusuyla) örtüşme, pozitif bir etiket (emekli oldun daha az belirli bir eşik negatif etiketlenecek daha aynı şekilde çapa) atanır. Bu etiketler ayrıca kayıp fonksiyonunu hesaplamak için kullanılır:

RPN Kayıp İşlevi

p , çapanın bir nesne içerme olasılığını belirleyen RPN'nin sınıflandırma kafası çıktısıdır. Negatif olarak etiketlenen ankrajlar için, regresyondan kayıp olmaz - , temel doğruluk etiketi sıfırdır. Başka bir deyişle, ağ, negatif bağlantıların çıktı koordinatlarını umursamaz ve doğru bir şekilde sınıflandırdığı sürece mutlu olur. Pozitif ankrajlarda regresyon kaybı dikkate alınır. , öngörülen sınırlama kutusunun 4 parametreli koordinatını temsil eden bir vektör olan RPN'nin regresyon kafası çıkışıdır. Parametreleme ankraj geometrisine bağlıdır ve aşağıdaki gibidir:pt

resim açıklamasını buraya girin

burada ve h kutunun merkez koordinatlarını, genişliğini ve yüksekliğini gösterir. Değişkenler ve olan (aynı şekilde tahmin edilen kutusu, bağlantı kutusu, ve yer gerçek kutu için sırasıyla ).x,y,w,x,xa,x*y,w,h

Ayrıca, etiketi olmayan ankrajların ne sınıflandırıldığını ne de yeniden şekillendirildiğini ve RPM'nin bunları hesaplamalardan çıkardığına dikkat edin. RPN'nin işi tamamlandıktan ve teklifler oluşturulduktan sonra, geri kalanlar Hızlı R-CNN'lere çok benzer.


@Fathi Çok fazla dersimiz varsa ne olur? Bildiğim kadarıyla, Fast R-CNN'de her bir eğitim ROI'sına bir yer gerçeği sınıfı atanır. Yani, sanırım burada benzer bir şey olur mu?
thanasissdr

@Fathi Söylediklerine tamamen katılıyorum, bu yüzden bana katıldığını düşünüyorum. Daha hızlı R-CNN için orijinal makalenin yazarları basitlik için sadece iki sınıf (arka plan / nesne) kullandılar, RPN'in nasıl çalıştığını açıklamaya çalışıyorlar, değil mi? Yani, sadece iki sınıfa sahip olmak yerine, ikiden fazla dersim olabilir ve sanırım bilinen çapraz entropi kaybı fonksiyonunu alabilirim, değil mi?
thanasissdr

@thanasissdr Daha Hızlı R-CNN'nin arkasındaki temel fikir, "sinir ağları her şeyde çok iyi olduğunda, neden bunları bölge teklifleri için kullanmıyorsunuz?" idi. Hızlı R-CNN ile standart R-CNN ile karşılaştırıldığında, tek fark, yine aynı eski teknikler, örneğin SelectiveSearch veya EdgeBoxes kullanılarak yapılan YG tekliflerinin ham görüntüden evrişimsel özelliklere eşleştirilmesi ve daha sonra FC'ler. Bu şekilde, her bir YG'nin CNN üzerinden ileri geçiş süreci göz ardı edilir.
Mahan Fathi

Daha Hızlı R-CNN'de, RPN uygun bölgeler önermeyi öğrenir . RPN yapıldıktan sonra, geri kalanlar Hızlı R-CNN'ye benzer ve FC'ler teklifleri sınıflandırır ve geriler.
Mahan Fathi

@thanasissdr Evet. Aynı sayfadayız. RPN'de sınıflandırabileceğinizi düşünüyorum, ancak FC net sınıflandırmayı tekrar yaptığı ve önemsiz teklifleri reddetmekte zorluk çekmediği için bu gereksiz olacaktır. Ayrıca boru hattını, sınıflandırma puanlarını nasıl kullanacağınızı ve nasıl yardımcı olacağını düşünün. Son duruşum, (arka plan / nesne) sınıflandırmasının Daha Hızlı R-CNN'de bir mihenk taşı olmasıdır.
Mahan Fathi

1

Bu makaleyi dün okudum ve ilk bakışta benim için de kafa karıştırıcıydı. Yeniden okuduktan sonra şu sonuca vardım:

  • Orijinal ağın son katmanı (ZF veya VGG-16) Bölge Teklif Ağı ve YG havuzu için girdi işlevi görür. VGG-16 durumunda bu son evre katmanı a'dır 7x7x512 (HxWxD).
  • Bu katman, bir 3x3döngü katmanı ile 512 boyutlu bir katmana eşlenir . Çıktı boyutu 7x7x512(dolgu kullanılıyorsa) 'dir.
  • Bu katman, ankraj kutularının her biri için bir konveksiyon tabakası olan bir 7x7x(2k+4k)(ör. 7x7x54) 1x1Tabakaya eşlenir k.

Şimdi kağıttaki Şekil 1 'e göre giriş görüntülerinden oluşan bir piramit (farklı bir ölçekte aynı görüntüler), bir filtre piramidi (aynı katmanda farklı bir ölçekte filtreler) veya referans kutuları piramidine sahip olabilirsiniz. İkincisi k, bölge teklif ağının son katmanındaki bağlantı kutularını ifade eder . Üst üste istiflenen farklı boyutlardaki filtreler (orta kasa) yerine, farklı boyut ve en boy oranına sahip filtreler üst üste istiflenir.

Kısacası, her bir tutturma noktası ( HxWörn. 7x7) İçin bir referans kutuları ( körn. 9) Piramidi kullanılır.


ama bir çapa kutusu tam olarak nedir? Her tutturma kutusunun amacı: ön planın bir parçası olduğu düşünülen her tutturma kutusu için tutturma kutusunun genişlik ve yüksekliğindeki bir deltayı tahmin etmek için RPN'ye girdi olarak mı kullanılır?
BadProgrammer

RPN, hem ön plan yerinin delta kaymasını hem de nesne puanını tahmin eder. İkincisi, arka plan mı yoksa ön plan mı olduğunu açıkça tahmin etmeye çalışır (ayrıca bkz. Dipnot 3).
Pieter

Bir 3x3dönüşümlü katmanın nasıl ifade edildiğini açıklayabilir misiniz 7x7? Prototxt'de dolgu son VGG16 katmanında 1'dir.
Klik
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.