Piksel tabanlı ve nesne tabanlı sınıflandırma arasındaki ayrım?


14

Uzaktan algılama alanındaki piksel tabanlı ve nesne tabanlı sınıflandırma arasındaki farkı açıkça anlamakta zorlanıyorum ve bu topluluktan birisinin içgörü sağlayabileceğini umuyorum.

Şimdiye kadar edindiğim bilgilere dayanarak, şu anki anlayışım şu satırlarda:

Piksel tabanlı sınıflandırma: Sınıflandırma, yalnızca söz konusu piksel için mevcut olan spektral bilgiler kullanılarak piksel başına her seviyede yapılır (yani, yer içindeki piksel değerleri göz ardı edilir). Bu anlamda her piksel bir sınıflandırma algoritması için bir eğitim örneğini temsil eder ve bu eğitim örneği n boyutlu bir vektör biçiminde olacaktır, burada n görüntü verilerindeki spektral bantların sayısıdır. Buna göre, eğitimli sınıflandırma algoritması bir görüntüdeki her bir piksel için bir sınıf tahmini çıkaracaktır.

Nesne tabanlı sınıflandırma: Sınıflandırma, birbirleriyle ilişkili olarak her pikselin uzamsal özellikleri dikkate alınarak yerelleştirilmiş bir piksel grubu üzerinde yapılır. Bu anlamda bir sınıflandırma algoritması için bir eğitim örneği bir piksel grubundan oluşur ve eğitimli sınıflandırma algoritması buna göre grup bazında pikseller için bir sınıf tahmini çıkarır. Ham bir örnek için, bir görüntü eşit büyüklükte n segmente bölünebilir ve daha sonra her segmente bir sınıf verilir (yani nesne içerir / nesne içermez).

Bu düşünce, bu terimlerin anlamı ile ilgili doğru mu, yoksa kaçırdığım bir şey var mı?

Yanıtlar:


9

Anlayışınız genellikle doğrudur, ancak nesne tabanlı sınıflandırma tanımınızda tehlikeler vardır - 'nesne' terimi, belirli bir nesneyi içerip içermediğini değil, piksel grubunu ifade eder.
Ayrıca, nesne tabanlı bir sınıflandırmada merkezi hedef, eşit büyüklükte segmentlere sahip olmak değil, görüntüyü değişen büyüklükte iç homojen parçalara "doğramak" / bölümlere ayırmaktır . Son olarak, nesne tabanlı sınıflandırma için eğitim örneği genellikle görüntü segmentasyonunda oluşturulan bir veya daha fazla parça olacaktır.

Sonuçta, yukarıda açıklamanız üzerine sadece küçük değişiklikler var.

Şimdi merkezi kısma - her yöntemin ne zaman uygulanacağı ve potansiyel olarak güçlü yönlerinin nasıl birleştirileceği.


Teşekkürler, bu açıklığa kavuşmaya gerçekten yardımcı oldu. Nesneye dayalı sınıflandırmanın inceliklerini tam olarak anlamadığım konusunda bir şüphem vardı! Melez yaklaşımların olasılığından bahsetmeniz ilginç, henüz bunu düşünmemiştim. Nesneleri algılamak ve sınıflandırmak için kayan bir pencere yaklaşımı benimseyecek olsaydım, uzaktan algılama alanında uygulanan böyle bir yaklaşım için teknik bir terim var mı?
RDG

1
evet, buna kıvrımlar denir. Cevabımı gör.
John Powell

Kanımca piksel temelli sınıflandırmada sıfır kuvvet var. Sınırlayıcı kutuları ve konumu tahmin etmek için kıvrımlar ve regresyon içeren ilginç iş akışları vardır, ancak kendi başına piksel tabanlı sınıflandırmanın değeri yoktur, imho.
John Powell

1
@ JohnPowellakaBarça - sınıflandırmanın geleneksel tek zaman diliminden ziyade değişen alanlara daha fazla odaklandığı çok yönlü uygulamaları düşünürken piksel tabanlı yaklaşımlarda bir miktar değer vardır.
Mikkel Lydholm Rasmussen

1
Tabii, evet, yeterince adil. Her ne kadar tartışmalı bir şekilde, bölgeye dayalı yaklaşımlar, vektörize edilmiş ve daha sonra zamanla karşılaştırılmış olsa da, potansiyel olarak daha büyük bir fikir verebilir, ancak amacınız iyi bir şekilde ele alınmıştır.
John Powell

12

Piksel tabanlı sınıflandırma söz konusu olduğunda, yerinde olursunuz. Her piksel n boyutlu bir vektördür ve Support Vector Machines, MLE, bir çeşit knn sınıflandırıcısı vb.Gibi bazı metriklere göre bir sınıfa atanacaktır.

Bununla birlikte, bölgeye dayalı sınıflandırıcılar söz konusu olduğunda, son yıllarda GPU'ların, büyük miktarlardaki verilerin, bulutun ve açık kaynakların büyümesi sayesinde algoritmaların geniş kullanılabilirliğinin (kolaylaştırılmış) bir araya gelmesiyle büyük gelişmeler olmuştur. github tarafından). Bilgisayarlı görme / sınıflandırmadaki en büyük gelişmelerden biri evrişimli sinir ağlarında (CNN'ler) olmuştur.. Evrişimli katmanlar, geleneksel piksel tabanlı sınıflandırıcılarda olduğu gibi renge dayalı olabilecek özellikleri "öğrenir", aynı zamanda kenar algılayıcıları ve piksel bölgesinde (dolayısıyla evrişimsel kısım) var olabilecek her türlü diğer özellik çıkarıcıları oluşturur asla piksel tabanlı bir sınıflandırmadan ayıklanamaz. Bu, başka bir türdeki piksel alanının ortasında bir pikseli yanlış sınıflandırma olasılıklarının daha düşük olduğu anlamına gelir - hiç bir sınıflandırma çalıştırdıysanız ve Amazon'un ortasında buz varsa, bu sorunu anlayacaksınız.

Daha sonra, sınıflandırmayı gerçekten yapmak için kıvrımlar yoluyla öğrenilen "özelliklere" tamamen bağlı bir sinir ağı uygularsınız. CNN'lerin diğer büyük avantajlarından biri, genellikle kıvrım katmanları ve sınıflandırma katmanı arasında, havuzlamayı ve bırakmayı kullanarak, aşırı sığmayı önlemek ve sorunlara yardımcı olmak için özellikleri genelleştiren ara katmanlar olduğu için ölçek ve rotasyonla değişmez olmalarıdır. ölçek ve yönelim.

Evrimsel sinir ağları hakkında çok sayıda kaynak vardır, ancak en iyisi bu alanın öncülerinden biri olan Andrei Karpathy'den Standord sınıfı olmak zorundadır ve tüm ders serisi youtube'da mevcuttur .

Tabii ki, alan tabanlı sınıflandırmaya karşı pikselle başa çıkmanın başka yolları da var, ancak bu şu anda en son teknoloji yaklaşımıdır ve makine çevirisi ve kendi kendini süren arabalar gibi uzaktan algılama sınıflandırmasının ötesinde birçok uygulamaya sahiptir.

Aşağıda, TensorFlow'u ayarlama ve AWS'de çalıştırma talimatları da dahil olmak üzere etiketli eğitim verileri için Açık Sokak Haritası kullanan bölge tabanlı sınıflandırmaya başka bir örnek verilmiştir .

İşte, bu durumda pivot sulama için kenar algılamaya dayalı bir sınıflandırıcının Google Earth Engine'i kullanan bir örnek - Gauss çekirdeği ve kıvrımlarından başka bir şey kullanmayan, ancak yine bölge / kenar tabanlı yaklaşımların gücünü gösteren bir örnek.

resim açıklamasını buraya girin

Nesnenin piksel tabanlı sınıflandırma üzerindeki üstünlüğü oldukça yaygın kabul görse de, burada Uzaktan Algılama Mektupları'nda nesne tabanlı sınıflandırmanın performansını değerlendiren ilginç bir makale bulunmaktadır .

Son olarak eğlenceli bir örnek, sadece bölgesel / evrişim temelli sınıflandırıcılarla bile bilgisayar görüşünün hala gerçekten zor olduğunu göstermek için - neyse ki, Google, Facebook, vb. köpekler, kediler ve farklı cins köpekler ve kediler. Böylece, uzaktan algılama ile ilgilenen kullanım geceleri rahat uyuyabilir: D

resim açıklamasını buraya girin


0

Çok basit bir cevap şöyledir:

Eğitim seti olarak yalnızca spektral bilgileri (Piksel yoğunluğu) kullanırsanız, piksel tabanı sınıflandırması yaparsınız.

Eğitim kümesi olarak hem uzamsal (mahalle pikselleri) hem de spektral bilgileri kullanırsanız, nesne tabanı sınıflandırması yaparsınız (segmentasyon tabanlı algoritma kullanarak, örneğin DBScan). Computer Vision'da bu DBS, Superpixel çıkarımı için kullanılabilir.

Not: özellik çıkarma için spektral bilgileri herhangi bir anlamda (boyut, şekil, içerik / doku) kullanabilirsiniz.

Spektral bilgi kullanarak özellik çıkarımı yapmak için farklı yaklaşımlar kullanabilirsiniz.

Ana soru, özellik çıkarma için en uygun yaklaşımı nasıl bulabilir ve ortaya çıkan problemin bilgiyi spektral bilgiden çıkarmak için etkin algoritmayı (kenar algılama, Spektral tabanlı segmentasyon, Kümeleme) nasıl uygulayacağıdır.

Evrişim matrisi, bir eğitim seti oluşturmak için hem spektral hem de uzamsal bilgilerde güzel bir analiz yapmak için düşünülebilir.

Referans: Uzaktan Algılama ve CBS Alanında 3 yıldan fazla deneyime sahip olduktan sonra bilgim.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.