"Bölümleme" ve "sahne etiketleme" ile karşılaştırıldığında "anlamsal bölümleme" nedir?


97

Anlamsal bölümleme sadece bir Pleonasm mı yoksa "anlamsal bölümleme" ile "bölümleme" arasında bir fark var mı? "Sahne etiketleme" veya "sahne ayrıştırma" arasında bir fark var mı?

Piksel düzeyinde ve piksel düzeyinde segmentasyon arasındaki fark nedir?

(Yan soru: Bu tür piksel bazlı ek açıklamaya sahip olduğunuzda, nesne algılamayı ücretsiz alıyor musunuz yoksa hala yapacak bir şey var mı?)

Lütfen tanımlarınız için bir kaynak veriniz.

"Anlamsal segmentasyon" kullanan kaynaklar

  • Jonathan Long, Evan Shelhamer, Trevor Darrell: Anlamsal Segmentasyon için Tam Evrişimli Ağlar . CVPR, 2015 ve PAMI, 2016
  • Hong, Seunghoon, Hyeonwoo Noh ve Bohyung Han: "Yarı Denetimli Anlamsal Bölümleme için Ayrılmış Derin Sinir Ağı." arXiv ön baskı arXiv: 1506.04924 , 2015.
  • V. Lempitsky, A. Vedaldi ve A. Zisserman: Anlamsal bölümleme için bir pilon modeli. Nöral Bilgi İşleme Sistemlerinde Gelişmeler, 2011.

"Sahne etiketleme" kullanan kaynaklar

"Piksel düzeyi" kullanan kaynak

  • Pinheiro, Pedro O. ve Ronan Collobert: "Evrişimli Ağlarla Görüntü Düzeyinden Piksel Düzeyine Etiketlemeye." Bilgisayarla Görme ve Örüntü Tanıma IEEE Konferansı Bildirileri, 2015. (bkz. Http://arxiv.org/abs/1411.6228 )

"Piksel şeklinde" kullanan kaynak

  • Li, Hongsheng, Rui Zhao ve Xiaogang Wang: "Piksel şeklinde sınıflandırma için evrişimli sinir ağlarının ileri ve geri yayılımı son derece verimli." arXiv baskı öncesi arXiv: 1412.4526 , 2014.

Google Ngrams

"Anlamsal bölümleme", son zamanlarda "sahne etiketlemeden" daha çok kullanılmaktadır.

görüntü açıklamasını buraya girin


Çok benzer görünen diğer terimler: (başına) piksel sınıflandırması / etiketleme
Martin Thoma

12
@MartinThoma'nın semantik segmentasyon araştırması yapan bir arXiv baskı öncesi incelemesine sahip olması gerçekten ilginç, soruyu sorduktan yaklaşık 6 ay sonra ( arxiv.org/pdf/1602.06541.pdf ). Aferin!
Mohamed Hasan

Yanıtlar:


92

"segmentasyon" birkaç "tutarlı" bölüme bir resmin bölüm olmakla olmadan bu parçalar temsil anlayarak herhangi bir girişim. En ünlü eserlerden biri (ama kesinlikle ilki değil) Shi ve Malik "Normalize Kesmeler ve Görüntü Segmentasyonu" PAMI 2000'dir . Bu çalışmalar, "tutarlılığı" renk, doku ve sınırın pürüzsüzlüğü gibi düşük seviyeli ipuçları üzerinden tanımlamaya çalışıyor. Bu çalışmaları Gestalt teorisine kadar takip edebilirsiniz .

Öte yandan "anlamsal bölümleme" , görüntüyü anlamsal olarak anlamlı parçalara bölmeye ve her bir parçayı önceden belirlenmiş sınıflardan birine sınıflandırmaya çalışır. Her pikseli sınıflandırarak da aynı hedefe ulaşabilirsiniz (tüm görüntü / segment yerine). Bu durumda, piksel bazlı sınıflandırma yaparsınız, bu da aynı sonuca götürür, ancak biraz farklı bir yolla ...

Öyleyse, "anlambilimsel bölümleme", "sahne etiketleme" ve "pikselsel sınıflandırma" nın temelde aynı amaca ulaşmaya çalıştığını söyleyebilirim: görüntüdeki her pikselin rolünü anlamsal olarak anlamak. Bu hedefe ulaşmak için birçok yoldan gidebilirsiniz ve bu yollar terminolojide küçük nüanslara yol açar.


2
Hangi yol anlamsal bölümlemeye götürür ve hangisi sahne etiketlemeye veya pikselsel sınıflandırmaya götürür?
Martin Thoma

3
@moose genel olarak konuşursak, "bölümleme" araştırma alanında ortaya çıkan araçları ve algoritmaları kullanırsanız (örneğin, CRF, pürüzsüzlük sağlayan terimler, vb.), o zaman "anlamsal bölümleme" yaparsınız. Öte yandan, görüntü sınıflandırmada yerel olarak uygulayan araçlar ve algoritmalar kullanıyorsanız, çalışmanızı "pikselsel etiketleme" olarak tanımlama olasılığınız daha yüksektir. Bununla birlikte, gerçekten herhangi bir pratik fark olduğunu sanmıyorum, sadece anlamsal: bunlar aynı nihai hedefin oldukça eşanlamlıları.
Shai

63

Nesne Algılama, Nesne Tanıma, Nesne Segmentasyonu, Görüntü Segmentasyonu ve Anlamsal Görüntü Segmentasyonu hakkında birçok makale okudum ve işte doğru olamayacak sonuçlarım:

Nesne Tanıma: Belirli bir görüntüde tüm nesneleri algılamanız gerekir (kısıtlı bir nesne sınıfı veri kümenize bağlıdır), onları bir sınırlayıcı kutu ile yerelleştirin ve sınırlayıcı kutuyu bir etiketle etiketleyin. Aşağıdaki resimde son teknoloji ürünü bir nesne tanımanın basit bir çıktısını göreceksiniz.

nesne tanıma

Nesne Algılama: Nesne tanımaya benzer, ancak bu görevde yalnızca iki sınıf nesne sınıflandırma vardır, bu da nesne sınırlayıcı kutular ve nesne olmayan sınırlayıcı kutular anlamına gelir. Örneğin, Araba algılama: Belirli bir görüntüdeki tüm arabaları sınırlayıcı kutuları ile algılamanız gerekir.

Nesne Algılama

Nesne Segmentasyonu: Nesne tanıma gibi bir görüntüdeki tüm nesneleri tanırsınız, ancak çıktınız görüntünün piksellerini sınıflandıran bu nesneyi göstermelidir.

nesne segmentasyonu

Görüntü Bölümleme: Görüntü bölümlemede görüntünün bölgelerini bölümlere ayıracaksınız. Çıktınız, bir görüntünün segmentlerini ve birbirleriyle tutarlı olan bölgelerini aynı segmentte etiketlemeyecektir. Bir görüntüden süper piksellerin çıkarılması, bu görevin veya ön plan-arka plan bölümlemesinin bir örneğidir.

Resim parçalama

Anlamsal Bölümleme: Anlamsal bölümlemede her pikseli bir nesne sınıfıyla (Araba, Kişi, Köpek, ...) ve nesne olmayanlarla (Su, Gökyüzü, Yol, ...) etiketlemeniz gerekir. Diğer bir deyişle, Anlamsal Bölümlemede görüntünün her bölgesini etiketleyeceksiniz.

anlamsal ayrım

Bence piksel seviyesi ve pikselsel etiketleme temelde aynıdır, görüntü bölümleme veya anlamsal bölümleme olabilir. Sorunuzu da bu bağlantıda aynı şekilde cevapladım .


8
Aynı nesnenin örnekleri arasında örnek segmentasyonu da eklerdim
Alex

1
"Görüntü Tanıma" nın "Görüntü Algılama" yerine "Görüntü Sınıflandırma" ile eşanlamlı olduğunu iddia ediyorum. Bir görüntüdeki bir veya daha fazla nesneyi tanımak ve mevcut olup olmadığını anlayabilmekle ilgilidir. Ayrıca nerede olduğunu da bilmek istiyorsak, nesneleri sınırlayıcı kutuları kullanarak tespit etmemiz gerekir. Ayrıca, bir nesne algılayıcısının yalnızca tek bir sınıfı algılayabilmesi için bir neden göremiyorum.
pietz

Sana kısmen katılıyorum Görüntü tanımanın ne olduğundan bahsetmedim, bu yüzden görüntü tanıma ve sınıflandırma aynı anlama gelebilir. Bununla birlikte, nesne algılama çoğunlukla iki sınıf problemi için ve çoklu sınıf için nesne tanıma için kullanılır. Her neyse, cevabım için bir korumam yok, bu sadece üç yıl önce bir kağıt okumaktan aldığım fikirdi! Şerefe!
e_soroush

Okumalarınızı nereden bulduğunuz bazı yerleri detaylandırır mısınız?
qarthandso

36

Önceki cevaplar gerçekten harika, birkaç ekleme daha belirtmek isterim:

Nesne Segmentasyonu

Bunun araştırma camiasında gözden düşmesinin nedenlerinden biri sorunlu olarak belirsiz olmasıdır. Nesne bölütleme, basitçe bir görüntüdeki tek veya az sayıda nesneyi bulmak ve bunların etrafına bir sınır çizmek anlamına gelir ve çoğu amaç için hala bunun anlamına geldiğini varsayabilirsiniz. Bununla birlikte, nesneler olabilecek lekelerin bölümlenmesi, nesnelerin arka plandan bölümlenmesi anlamında da kullanılmaya başlanmıştır. (daha yaygın olarak şimdi arka plan çıkarma veya arka plan segmentasyonu veya ön plan algılama olarak adlandırılır) ve hatta bazı durumlarda sınırlayıcı kutular kullanılarak nesne tanıma ile birbirinin yerine kullanılır (bu, nesne tanımaya yönelik derin sinir ağı yaklaşımlarının ortaya çıkmasıyla hızla durdu, ancak önceden nesne tanıma da basitçe tüm bir görüntünün içindeki nesne ile etiketlenmesi anlamına gelir).

"Segmentasyonu" "anlamsal" yapan nedir?

Simpy, her segment veya derin yöntemler söz konusu olduğunda her piksele bir kategoriye dayalı bir sınıf etiketi verilir. Genel olarak bölümleme, görüntünün bazı kurallara göre bölünmesidir. Meanshift segmentasyonu, örneğin çok yüksek bir seviyeden verileri görüntünün enerjisindeki değişikliklere göre böler. Grafik kesimitabanlı bölümleme benzer şekilde öğrenilmez, ancak doğrudan her görüntünün diğerlerinden ayrı özelliklerinden türetilir. Daha yeni (sinir ağı tabanlı) yöntemler, belirli sınıflarla ilişkili yerel özellikleri tanımlamayı öğrenmek için etiketlenmiş pikselleri kullanır ve ardından her pikseli hangi sınıfın o piksel için en yüksek güvene sahip olduğuna göre sınıflandırır. Bu şekilde, "piksel etiketleme" aslında görev için daha dürüst bir isimdir ve "segmentasyon" bileşeni ortaya çıkar.

Örnek Segmentasyonu

Muhtemelen Nesne Segmentasyonunun en zor, alakalı ve orijinal anlamı olan "örnek bölümleme", aynı türde olup olmadıklarına bakılmaksızın bir sahne içindeki tek tek nesnelerin bölümlere ayrılması anlamına gelir. Bununla birlikte, bunun bu kadar zor olmasının nedenlerinden biri, vizyon perspektifinden (ve bazı yönlerden felsefi olan) bir "nesne" örneğini oluşturan şeyin tamamen açık olmamasıdır. Vücut parçaları nesne mi? Bu tür "parça nesneler", bir örnek bölümleme algoritması ile hiç parçalanmalı mı? Yalnızca bütünden ayrı görüldüklerinde bölümlere mi ayrılmalılar? Bileşik nesneler, açıkça bitişik ancak birbirinden ayrılabilen iki nesne bir veya iki nesne olmalıdır (bir sopanın tepesine yapıştırılmış bir kaya, bir balta, bir çekiç veya sadece bir sopa ve bir taş, düzgün yapılmadıkça mı?). Ayrıca, değil t Örneklerin nasıl ayırt edileceğini netleştirme. İrade, bağlı olduğu diğer duvarlardan ayrı bir örnek mi? Örnekler hangi sırada sayılmalıdır? Göründükleri gibi mi? Bakış açısına yakınlık? Bu zorluklara rağmen, nesnelerin bölümlendirilmesi hala büyük bir sorun çünkü insanlar olarak biz nesnelerle her zaman etkileşimde bulunuyoruz "sınıf etiketleri" ne olursa olsun (etrafınızdaki rastgele nesneleri kağıt ağırlık olarak kullanmak, sandalye olmayan şeylerin üzerine oturmak), ve bu nedenle bazı veri kümeleri bu soruna ulaşmaya çalışır, ancak soruna henüz çok fazla önem verilmemesinin ana nedeni, yeterince iyi tanımlanmamış olmasıdır. görüntü açıklamasını buraya girin

Sahne Ayrıştırma / Sahne etiketleme

Sahne Ayrıştırma, kendi başına bazı belirsizlik sorunları olan sahne etiketlemeye katı bir bölümleme yaklaşımıdır. Tarihsel olarak, sahne etiketlemesi tüm "sahneyi" (görüntü) bölümlere ayırmak ve hepsine bir sınıf etiketi vermek anlamına geliyordu. Bununla birlikte, görüntünün alanlarına açıkça bölümlere ayırmadan sınıf etiketleri vermek için de kullanıldı. Segmentasyon ile ilgili olarak, "semantik segmentasyon" değil , tüm sahneyi bölen ima. Anlamsal bölümleme için, algoritma yalnızca bildiği nesneleri bölümlere ayırmayı amaçlamaktadır ve herhangi bir etiketi olmayan pikselleri etiketlemek için kayıp işlevi tarafından cezalandırılacaktır. Örneğin, MS-COCO veri kümesi, yalnızca bazı nesnelerin bölümlere ayrıldığı anlamsal bölümleme için bir veri kümesidir. MS-COCO örnek resimleri

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.