Derin öğrenme görüntü işleme / bilgisayar vizyonunu öldürüyor mu?


52

Sinyal ve Görüntü işleme alanında yüksek lisans veya belki de Bilgisayar Görüşü (henüz karar vermedim) konusunda yüksek lisans yapmak için sabırsızlanıyorum ve bu soru ortaya çıktı.

Benim endişem, derin öğrenme özellik çıkarımına ihtiyaç duymadığından ve giriş ön işlemlerinde neredeyse hiç işlem yapmadığından, görüntü işlemeyi (veya genel olarak sinyal işlemeyi) öldürüyor mu?

Derin öğrenme konusunda uzman değilim, ancak diğer teknikler gibi bir özellik vektöründen doğrudan görüntü alan tanıma ve sınıflandırma görevlerinde çok iyi çalışıyor gibi görünüyor.

Geleneksel bir özellik çıkarma + sınıflandırma yaklaşımının daha iyi olacağı, görüntü işleme tekniklerinden yararlanabileceği veya derin öğrenme nedeniyle bu durumun öleceği bir durum var mı?


3
Bunu yeniden açmak, çünkü yüksek sayıda oy sahip ve en çok oy alan cevap çok yüksek sayıda oy sahip.
Peter K.

1
@LaurentDuval Her cevabın faydalı ve çok ilginç olduğunu düşünüyorum, ancak esas olarak sizin ve matematikçi cevaplarınız (ortaya çıkan tartışma ile birlikte) konuyu netleştirdi.
Tony

2
Devam eden tartışmada bir kavşak yapmak istiyorum. Kim derin öğrenmenin özellik çıkarımı gerektirmediğini söyledi? Kendi pratik tecrübeme göre, DNN'yi ham veriler için eğitmemeliyiz. Bazı özellik çıkarımları yapmalı ve ayrıca görüntü hakkında temel bir anlayışa sahip olmalıyız. Derin öğrenme dikkatli kullanılmalıdır, fakat aynı zamanda iyi bir fikirdir.
arun raj

Yanıtlar:


45

Bu yayın çok güncellendi. En üstte, link güncellemelerini görebilirsiniz. Aşağıda, ilk cevaptaki varyasyonlar. Kısa versiyon için: evrişimli sinir ağlarının ve derin öğrenmenin başarıları bir tür Galilya devrimi gibi gözüküyor. Görüş pratik noktası için, klasik sinyal işleme veya bilgisayarla görme sen, yeterince etiketli veri var belirgin sınıflandırma başarısızlıkları (hakkında çok az bakım şartıyla ... öldüler derin kusurları ), karbon ayak izi düşünmeden testler sonsuz enerjiye sahip , ve rasyonel açıklamaları zahmet etmeyin. Diğerleri için, bu bize daha önce yaptığımız her şeyi yeniden düşündürdü: özellik çıkarma, optimizasyon (meslektaşım J.-C. Derin Sinir Ağı Yapıları Üzerine Pesquet Çalışması Varyasyonel Eşitsizlikleri Çözme), değişmezlik, niceliklendirme, vb. Ve gerçekten ilginç araştırmalar ortaya çıkmaktadır, umarım kesin temellere dayanan prensipler ve benzer performanslarla yetişmektedir.

Güncelleme bağlantıları:

Sınıflandırıcı doğruluğunun önemli ölçüde bozulmasına neden olan gerçek dünya, değiştirilmemiş ve doğal olarak oluşan örnekler olan doğal olumsuz örnekleri sunuyoruz. 7.500 doğal rakip örneği seçip bunları ImageNet-A olarak adlandırdığımız bir ImageNet sınıflandırıcı test setinde yayınlıyoruz. Bu veri kümesi, sınıflandırıcı sağlamlığını ölçmenin yeni bir yolu olarak işlev görür. L_p rakip örnekleri gibi, ImageNet-A örnekleri de görünmeyen veya kara kutu sınıflandırıcılarına başarıyla aktarıldı. Örneğin, ImageNet-A'da bir DenseNet-121, yaklaşık% 90'lık bir doğruluk düşüşü, yaklaşık% 2 hassasiyet elde eder. Bu doğruluğun kurtarılması kolay değildir çünkü ImageNet-A örnekleri mevcut sınıflandırıcılarda renk, doku ve arka plan ipuçlarına aşırı güvenmeleri de dahil olmak üzere derin kusurlardan yararlanır. Sağlamlığı artırmak için popüler eğitim tekniklerinin çok az etkisinin olduğunu gözlemliyoruz, ancak bazı mimari değişikliklerin doğal rakip örneklere sağlamlığı artırabileceğini gösteriyoruz. Bu zor ImageNet test setine sağlam bir genelleme sağlamak için gelecekteki araştırmalar gereklidir.

Derin öğrenme referansları standart sinyal / görüntü işlemede "adımlama" altında bulunabilir. Michael Elad , Deep Deep Deep Trouble: Deep Learning'in Görüntü İşleme, Matematik ve İnsanlık Üzerindeki Etkisi'ni yazdı (SIAM News, 2017/05), alıntı:

Sonra sinir ağları aniden geri döndü ve intikam aldı.

Bu tribün, geleneksel “görüntü işleme” den, verileri modellemeye / anlamaya çalışarak, bir doğruluk diyarına, çok fazla içgörü olmadan bir kayma sergilediği için ilgi çekicidir.

Bu etki alanı oldukça hızlı gelişiyor. Bu, kasıtlı veya sabit bir doğrultuda geliştiği anlamına gelmez. Ne doğru ne yanlış. Ancak bu sabah şu sözleri duydum (şaka mı?):

Çok büyük veri kümesine sahip kötü bir algoritma, pauce veri içeren akıllı bir algoritmadan daha iyisini yapabilir .

İşte benim çok kısa denemem oldu: derin öğrenme en son teknoloji sonuçları sağlayabilir, fakat neden her zaman anlamıyor ve bilim insanımızın bir kısmı işlerin neden işe yaradığını, bir veri içeriğinin ne olduğunu açıklamaya devam ediyor , vb.

Derin öğrenme (çok büyük) iyi etiketlenmiş veritabanları gerektirir. (Setinin "tamamlayıcı sette özellikle "serbest kullanıcı tabanlı görüntüleri etiketli" doğurma ihtimali yerlerde (yani arkasında büyük bir veritabanı olmadan) Eğer tek veya tekil görüntülerde craftwork zaman tekrar yapmak oyunlar ve yüzleri oynarken komik kediler ") , geleneksel görüntü işlemeye bir süre ve kar için sadık kalabilirsiniz. Bir son tweet o özetliyor:

(çok fazla) etiketlenmiş veri (eksik değişkenler olmadan) gereksinimi, birçok etki alanı için anlaşma kırıcıdır (& gereksiz)

Eğer öldürülüyorlarsa (ki kısa süreli bir ihbarda şüpheliyim), henüz ölmediler. Böylece, sinyal işleme, görüntü analizi, bilgisayarla görme konularında edindiğiniz her beceri gelecekte size yardımcı olacaktır. Bu, örneğin blog yazısında tartışılmıştır: Bilgisayarla Görüşteki Geometri'yi Unuttuk mu? Alex Kendall tarafından:

Derin öğrenme bilgisayar vizyonunda devrim yarattı. Günümüzde, en iyi performansa sahip çözümün baştan sona derin bir öğrenme modeline dayanmadığı pek fazla sorun yoktur. Özellikle, evrişimsel sinir ağları, kutudan oldukça iyi çalışma eğiliminde olduklarından popülerdir. Ancak, bu modeller büyük ölçüde kara kutulardır. Onlarla ilgili anlamadığımız birçok şey var.

Somut bir örnek aşağıdaki olabilir: aynı konumdan birkaç tane çok karanlık (örneğin gözetim) görüntü; bunlardan birinin, tespit edilmesi gereken belirli bir değişiklik içerip içermediğini, potansiyel olarak geleneksel görüntü işleme meselesi olup olmadığının değerlendirilmesi gerekir. Derin Öğrenme (bugünden itibaren).

Diğer taraftan, Derin Öğrenme büyük ölçüde başarılı olduğu için, bazı uygulamalar için “ortalama” zararsız olabilecek küçük bir veri kümesinin yanlış sınıflandırılmasına yol açabilir. İnsan gözüyle biraz farklı olan iki görüntü, DL aracılığıyla farklı şekilde sınıflandırılabilir. Veya rasgele görüntüler belirli bir sınıfa ayarlanabilir. Örneğin, Derin sinir ağları kolayca kandırılabilir: Tanınmayan görüntüler için yüksek güven tahminleri (Nguyen A, Yosinski J, Clune J. Proc. Bilgisayarla Görme ve Örüntü Tanıma 2015) veya Derin Öğrenmenin Derin Kusurları Var mı? , olumsuz olumsuzluklarda:

Ağ, araştırmacılar belli bir algılanamaz pertürbasyon uyguladıktan sonra görüntüyü yanlış sınıflandırabilir. Sapmalar, tahmin hatasını maksimuma çıkarmak için piksel değerlerini ayarlayarak bulunur.

Tüm “Derin Öğrenme” ile ilgili olarak, “tekil zanaat esasına” karşı “tescilli, bilinen, kitlesel onaylanabilir veya beklenen bir davranışa cevap veren seri üretimi” düşünün. Hiçbiri tek bir endeks ölçeğinde (henüz) daha iyidir. Her ikisinin de bir süre bir arada olması gerekebilir.

Bununla birlikte, derin öğrenme aşağıdaki referanslarda açıklandığı gibi birçok yeni alana yayılmaktadır.

Neyse ki, bazı insanlar, örneğin Stéphane Mallat ve ortak yazarlar tarafından önerilen yayılma ağları veya dönüşümleri olan derin öğrenmenin arkasındaki matematiksel gerekçeyi bulmaya çalışıyorlar, saçılma için ENS sitesine bakınız . Harmonik analiz ve doğrusal olmayan operatörler, Lipschitz fonksiyonları, çeviri / rotasyon değişmezliği, ortalama sinyal işleme kişi için daha iyidir. Örneğin, Derin Evrişimli Ağları Anlamak .


1
Uygun şekilde değiştirilmiş kopyaları kullanarak yetersiz eğitim verisini artırmak, derinlemesine öğrenmenin genelleştirilmesine yardımcı olur. Son zamanlarda, denetimli etiketlemenin tam olarak yapılmasının gerekliliği etrafında yollar bulundu: Denetimsiz veri büyütme , yarı denetimli öğrenmede eğitim verilerinin etiketlenmemiş kısmı için otomatik olarak etiketler oluşturur ve bu verileri eğitim için kullanır. (Bu veya benzeri bilgiyi cevabınıza dahil
etmekten çekinmeyin

1
Eğer "sürekli" nasıl arttırılacağını biliyorsan. Tamam, klasik veri setlerinde, yine de ilgileneceğim bilimsel veriler üzerinde dolaşacağım (jeoloji, kimya)
Laurent Duval

@Laurent, söyledikleriniz hakkında: "bilim insanımız işlerin neden işe yaradığını açıklamaya devam ediyor" : veri bilimi gibi sesler DSP'de ciddi çalışmayı düşünen biri için geçerli bir kariyer. Duyduğun tipik "DSP mühendisi" unvanının dışında başka isimler var mı?
JFonseca

21

İlk olarak, görüntü işleme veya bilgisayarlı görmede kademeli olarak çalışmak ve derin öğrenmeyi kullanmakta yanlış bir şey yoktur . Derin öğrenme, görüntü işleme ve bilgisayar vizyonunu öldürmek değildir, yalnızca o alanlardaki güncel araştırma konusudur.

İkincisi, derin öğrenme öncelikle nesne kategorisi tanımada kullanılır. Ancak bu, bilgisayarla görü görme alanlarından yalnızca biridir. Nesne tespiti, izleme, 3B rekonstrüksiyon, vb. Gibi çoğu hala "el yapımı" özelliklere dayanan başka alanlar var.


5
Dikkatli olun: DnNS'nin yapmanın çok iyi yetenekli hepsi bahsettiğiniz olanların: vb Nesne algılama, izleme, 3 boyutlu rekonstrüksiyon, dedi ki, sinyal işleme sinyalleri manipüle ediliyor nasıl fiziksel yönleri bir bakış açısı olduğunu ve niye biz onları bir şekilde manipüle et - ve bunlar (inanıyorum ki) DNN'ler gibi uyarlanabilir algoritmaların neden çalıştığını açıklamak için geri dönüş yapacaklar. Ancak hata yapmayın - DNN'ler girdiden ve (farklılaştırılabilir) hedef hedefine kadar temel dönüşümlere dayanabilirler.
Tarin Ziyaee,

11

Hiçbir Derin Öğrenme, Görüntü İşleme'yi öldürmez. Derin öğrenme yapabilmek için büyük veri setlerine ve çok sayıda hesaplama kaynağına ihtiyacınız var. Daha az hesaplama yükü ve daha küçük bellek ayak izleri ile ve büyük veritabanlarına erişmeden görüntü işleme yapabilmenin istendiği birçok uygulama vardır. Bazı örnekler cep telefonları, tabletler, mobil kameralar, otomobiller, dörtgenlerdir. Sınıflandırmada çok etkileyici sonuçlar olduğu için, derin öğrenme şu anda çok heyecanlandı.

Sınıflandırma, Görüntü İşleme ile ilgilenen birçok problemden biridir, bu nedenle derin öğrenmenin tüm sınıflandırma problemlerini çözeceği doğru olsa bile, yapılacak birçok başka Görüntü İşleme türü olacaktır. Gürültü azaltma, görüntü kaydı, hareket hesaplamaları, geçiş / harmanlama, keskinleştirme, optik düzeltmeler ve dönüşümler, geometri hesaplama, 3B tahmin, 3B + zaman hareket modelleri, stereo görüntü, veri sıkıştırma ve kodlama, segmentasyon, çapak alma, hareket dengeleme, bilgisayar grafikleri, Her türlü render.


Sözde, 3D tahmin, vb, bahsettiğiniz herkes, uygun mimariye ve uygun verilere sahip DNN'ler tarafından yaklaştırılabilir ve çözülebilir.
Tarin Ziyaee 14:16

1
Evet, evet ve haftalık alışverişlerinizi Jaguar'da yapabilirsiniz (ancak bu yüzden yapılmazlar).
mathreadler 14:16

1
Hehe, gerçek - ama bu söyleyerek daha farklı olamaz dükkan senin jaguar kullanarak.
Tarin Ziyaee,

DNN'lerin üstesinden gelmek için can sıkıcı olan bir mühendislik problemine faydalı kısıtlamalar getirmek kolaydır. Örneğin, kullanılan yöntemin belirli bir girdi verisi kümesine doğru yönlendirilmemesi gerektiği kısıtı. O zaman DNN'ler elbette ki tümü eğitime ihtiyaç duydukları için varsayılan olarak diskalifiye edilecekler ve bu nedenle eğitim verileri kullanılarak önyargılı olacaklar.
mathreadler

Bu, herhangi bir mühendislik aracı için geçerlidir: Ama mesele bu değil. Mesele şu ki yukarıda bahsettiğiniz tüm bu görevler aslında DNN'lerle çok iyi bir şekilde çözülebilir . Evet, bazı son gelişmeler daha vardır, ama bunların söylemek yanlış lideri olduğu olamaz DnNS ile çözülecek! Bu kadar!
Tarin Ziyaee 15:16

11

Bugün bir arkadaşımla bir tartışma yaptık. Burada, Münih’te yağmurlu bir gündü, ancak Avrupa'nın büyük bir kısmı güneşli bir atmosfere sahipti. İnsanlar sosyal medyada, güzel yazlık elbiseler içinde, denizlerde dolaşıp fotoğraflarını paylaşıyorlardı. Bu durumdan rahatsız oldu ve bana döndü ve sordu: "Yazları, buradaki hava çok kötü olduğunda, bu tür sevimli fotoğrafları içeren sosyal medyadaki resimleri engellemek için bir yazılım yazabilir misiniz?" Dedim, neden olmasın. Tek yapmanız gereken, çok sayıda yaz imgesi ve negatif örnekler toplamak, onu "Blok" veya "Blok Yok" düzeyinde ikili sınıflandırma yapan bir ağ üzerinden beslemektir. Ağı eğitin ve ayarlayın. Bu kadar.

Sonra kendime döndüm: Makinenin benim için düşünmesine izin vermeden havanın güzel olup olmadığına karar vermek için basit bir algoritma nasıl yazacağımı gerçekten biliyor muyum? Ancak ... Belki ... Meraklı okuyucu için, işte o zaman denemek istersen, tasarlamak isteyebileceğin bazı özellikler var:

İki Sınıflı Hava Sınıflandırması, Cewu Lu§ Di Lin, Jiaya Jia, Chi-Keung Tang , CVPR 2014

Açıkçası, bugünlerde bu CVPR yayınını umursamıyordum ve sadece derinlere iniyorum. Bu yüzden, birçok senaryodaki güçlü performansı için derinlemesine öğrenmeyi sevdiğim kadar, dikkatli de kullanıyorum. Görüntü işleme konusundaki bilgimi öldürmeyecek olsa bile, ihtiyaç duyduğum alan uzmanlığını azaltma eğilimindedir. Fikri olarak, bu çok zarif değil.

Birey kendisini takip etmeye karar verir vermez ve her iki dünyadan yararlanırsa, güvende olur.


7

Kısa cevap, Hayır. DL bir fotoğraftaki bir bardağı tanıyabilir, ancak bu yine de sinyal işlemeyi öldürmez. Bu, sorunuzu bu sıkıntılı günlerde oldukça ilgili olduğunu söyledi. Konuyla ilgili, Stephane Mallat, vb . İle ilgili hoş bir panel tartışması var .


5

Veri mühendisliği, öğrenme süreçlerini ve değerlendirme etkinliklerini iyileştirmek için DNN'lere beslenen verileri ön işleme koymak ve seçmek için hala makine öğrenmesinde kullanılmaktadır. Görüntü işleme (kamera sensörü ile DNN'lere beslenen RGB / vb. Bitmapler arasındakiler), bir veri mühendisliği formu hala gereklidir.


4

Sinyal işleme (lineer cebir, vektör hesabı, matematiksel istatistikler vb. İle birlikte) kapsamlı bir şekilde anlaşılması, özellikle bilgisayar vizyonunda derin öğrenme alanındaki önemsiz çalışmalar için vazgeçilmezdir.

Derin öğrenmedeki yüksek etkili kağıtlardan bazıları (şimdi düşük asılı meyvelerin çoğu seçilmiş durumdadır), sinyal işleme kavramlarının iyi bir şekilde anlaşılmasını sağlar.

Birkaç motivasyonel kavram:

  • Genişleyen evrimler : bu blog yayınına göz atın . İlk denklemlerden biri, sinyal işleme konseptlerinde iyi topraklanmış bir kişi için ekmek-tereyağı olurdu. Aynı zamanda , klasik dalgacık sinyal işlemesinde bulunan bir trous algoritması ile de yakından ilgilidir .
  • Dönüşümlü katlamalı katmanlar / Dekonv katmanlar. Yine, temel işaret işleme kavramları.
  • Conv filtrelerinin şekillendirilmesi - operatör normları hakkında iyi fikir ve büzülme haritalaması gereklidir. Bu, genellikle Sinyal Teorisi veya Kontrol Sistemlerinde veya EE'deki Matematik derslerinde (Gerçek veya fonksiyonel) bir EE kursunda bulunur.
  • Çekişmeli örnekler : Bunu araştıran ilk makalelerden biri ( "İlginç özellikleri ..." ) bunu pertürbasyon açısından resmileştirdi ve sinir ağındaki çeşitli katmanların ve doğrusal olmayanların Lipschitz sabitlerini duyarlılığa daha fazla bağlamak için kullandı. bu tür sapmalar. Anlaşılan, analiz çok önceydi, ancak yine de, derinlemesine öğrenme dahil olmak üzere hiçbir şeyde önemsiz bir ilerleme kaydetmenin önemsiz bir teori anlayışı gerektirdiğinin kanıtı olduğuna inanıyorum.

Liste devam ediyor. Bu nedenle, bilgisayarlı görüde çalışmaya başlasanız ve problemlerinizi derinlemesine öğreniyor olsanız bile, sinyal işleme geçmişi işleri sizin için çok kolaylaştıracaktır.


1
Evet. Ağa ne besleneceğini öğrenmek zorunda olmayan herhangi bir kısayol, daha kötü performansla zor yoldan öğrenilmelidir.
mathreadler

4

Gerçekten çok fazla görüntü işleme yapmıyorum, ancak Sinir Ağları 80'lerin ortalarından sonlarına kadar sıcak bir konu olduğunda sinyal sınıflandırma araştırmasını finanse eden ve finanse eden bir organizasyon (ABD Donanması) için çalıştım. Çok sayıda esas olarak pazarlama malzemelerine oturmak zorunda kaldım. Argümanlar çizgileri boyunca vardı:

  • Beyin gibi Sinirsel ve doğrusal bir sınıflandırıcıdan daha iyi performans gösterdiğinden, istatistiksel teknikleri atıyor. Aslında yazılarını reddetmiş bazı insanları tanıyorum çünkü performansı değerlendirmek için istatistikler kullandılar.
  • Sinir Ağları endüktifdir, eğer eğitim setlerinde hiç veya birkaç örnek yoksa, doğru bir şekilde sınıflandırabilirler.
  • DARPA fon sağlama işidir ve hepimiz biliyoruz ki, DARPA’nın yaptığı her şey bir kazanan.
  • Performans harika değil, karışıklık matrisine gerek yok, sınıf önceliğine gerek yok, hata olasılığımın ne olduğunu söyleyebilirim. Sınırlara gerek yok, ben sadece bir tutuş yapıp karıştırıyorum.
  • Bazı özellikler seçin ve bunun için gidin, kara bir kutu, ölçeklendirme, veri hizalama, karışıklık reddi, kötü etiketler, birden fazla sınıfın ortaya çıkışı, benim sorunum değil.
  • Matematik Sisi, Boltzmann Makineleri
  • Bir SVD'yi ve belki de fraktal bir boyut olayını atalım.
  • Denetimli / denetimsiz yem ve anahtar, tüm gizli kalıplarınızı bulacağım. Bu birleştirici bellek olayı derin değil mi?

Sinizmi bastırmak Piskopos'un kitabını aldı.

Birkaç uygulamada, optimum sinyal işleme algoritması, hızlıca anlaşılmaz hale gelen geniş bir parametre alanı üzerinde kapsamlı bir numaralandırma araştırması gerektirecektir. Büyük bir sunucu grubu bu ulaşılabilir arama alanını artırabilir, ancak bir noktada sezgisel bulmanız gerekir. DL, bu buluşsal deneyimlerin bazılarını bulabiliyor gibi gözüküyor, ancak altta yatan NP zor optimizasyonunu çözemiyor.


Sinizmi bastırmakta tamamen haklısınız, pek çok insanı bastırıyor gibi. Bazen bunu daha erken yaşlarda öğrenebilmeyi diliyorum.
mathreadler

3

Üniversiteden bakış açım, sinyal işleyen birçok insanın ML'ye karşı biraz düşmanca davrandığı yönündeydi, çünkü kendi alanlarına yayıldığını tehdit ettiklerini düşünüyorlardı. Ancak son zamanlarda, karmaşık altın değerli biletin her iki disiplinin gerçekten sağlam bir anlayışı olduğunu öne süren karmaşık değerli derin sinir ağlarının faydaları hakkında çok fazla araştırma yapıldı.


1
Evet. Sinyal işleme, makine öğrenmesi ile çok yakından ilgilidir. Sinyal işlemenin sağlam bir şekilde anlaşılması, ML algoritmalarının nasıl oluşturulacağını ve kullanılacağını ve bunları beslemek için ne tür bir verinin (birleşmiş) olduğunu anlamamıza yardımcı olur.
mathreadler

2

İyi evet. Aynı şekilde C ++ ve Python gibi yüksek seviyeli programlama dillerindeki gelişim 'montaj' programlarını öldürdü. Bununla birlikte, bir CS kursuna kaydolduğunuzda montaj öğrenmenin alakasız olduğu anlamına gelmez. Bilgisayarın nasıl çalıştığı, yüksek seviyeli dillerin sahne arkasına neler geçtiği, bilgisayar dilinin temel prensipleri, vb. Konularında harika bir fikir sağlar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.