Görüntü formatı (png, jpg, gif) görüntü tanıma sinir ağının nasıl eğitildiğini etkiler mi?

23

Derin, evrişimli sinir ağları ile görüntü tanıma, görüntü sınıflandırma vb. Konularında birçok ilerlemenin olduğunun farkındayım.

Ama PNG görüntüleri üzerinde bir ağ eğitirsem, sadece bu şekilde kodlanmış görüntüler için çalışır mı? Başka hangi görüntü özellikleri bunu etkiler? (alfa kanalı, taramalı, çözünürlük vb.)

neural-networks deep-learning image-processing

— Felipe Almeida
kaynak

2

Kendine güvenen bir cevap vermek için görüntülerin istatistiklerinde yeterli deneyime sahip değilim, ancak farklı modellerin görüntüleri kayıp JPEG sıkıştırması, alfa kanalları vb.Kayıtlardan etkilenecek özelliklere dönüştürmek için tamamen farklı şemalar kullanmasını beklerim. . ve bazıları olmayacak, ayrıntılar modele özgü olacak. Her piksele bir özellik olarak davranan her iki modelin ve görüntüleri bölgelere bölen ve bölge özelliklerini unsur olarak kullanan modellerin olduğunu biliyorum.

— Kodiologist

20

Kısa cevap HAYIR .

Görüntünün kodlandığı biçimin kalitesi ile ilgilidir. Sinir ağları esasen çok ve çok sayıda işlem gerçekleştiren matematiksel modellerdir (matris çarpımları, eleman-bazlı eklemeler ve haritalama fonksiyonları). Bir sinir ağı bir Tensörü giriş olarak görür (yani çok boyutlu bir dizi). Şekli genellikle 4 boyutludur (toplu iş başına görüntü sayısı, görüntü yüksekliği, görüntü genişliği, kanal sayısı).

Farklı görüntü formatları (özellikle kayıplı olanlar) farklı giriş dizileri üretebilir, ancak kesin olarak konuşan sinir ağları girişlerinde dizileri görür, DEĞİL görüntüler.

— Djib2011
kaynak

4

Cib2011 yanıtı doğru olsa da, sorunuzun görüntü kalitesinin / özelliklerinin genel olarak sinir ağı öğrenmesini nasıl etkilediğine daha fazla odaklandığını anlıyorum. Bu konuda (afaik) çok az araştırma var, ancak gelecekte daha fazla araştırma olabilir. Bu makaleyi sadece üzerinde buldum . Şu anda sorun, bunun daha çok pratik uygulamalarda ortaya çıkan ve akademik araştırma alanında daha az görülen bir sorundur. Araştırmacıların fotoğraf çekmek için kullanılan kameranın bile büyük bir etkisi olabileceğini gözlemlediği şu anki bir podcast'i hatırlıyorum.

— Bobipuegi
kaynak

Beni podcast'e yönlendirir misiniz lütfen?

— David Ernst

Afrika'da makine öğrenimi uygulayan bir araştırmacı ile bir tartışma yaptıkları "konuşma makineleri" adlı bir saatlik bir bölüm. İTunes bağlantısı: itunes.apple.com/de/podcast/talking-machines/…

— Bobipuegi

2

Bu Cib2011'in ilk cevabı için bir riff. Kısa cevap hayır olmalı. Daha uzun - Öncelikle fotoğraflar her zaman aşağıdaki gibi bir tensör olarak kodlanır. Bir görüntü piksel sayısıdır. Fotoğrafın m satırı ve n sütunu olduğu düşünülürse, her piksel satır ve sütun konumu, yani çift (m, n) ile belirtilir. Özellikle 'küçük' fotoğraflar için bile çok büyük olan m * n pikseller vardır. Fotoğrafın her pikseli, fotoğraf siyah beyazsa, sıfır ile bir (siyahlık yoğunluğu) arasındaki bir sayı ile kodlanır. Fotoğraf renkliyse, üç sayı (RGB yoğunluğu) ile kodlanır. Yani 1xmxn ya da 3xmxn olan bir tensör ile sarılır. Görüntü tanıma fotoğraflar pikselden piksele o kadar değişmez gerçeği yararlanarak, CNN en hangi aracılığıyla yapılır, kompresfiltreler ve havuzlama yoluyla veri. Buradaki nokta, CNN'in bir fotoğrafın inanılmaz sayıda veri noktasını (veya özelliğini) daha az sayıda değere sıkıştırarak çalışmasıdır. Hangi formatla başlarsanız başlasın CNN'ler fotoğrafın verilerini daha da sıkıştırarak başlar. Bu nedenle, fotoğrafın temsil boyutundan kendiliğinden bağımsızlık.
Bununla birlikte, bir CNN, içinden geçen tüm görüntülerin aynı boyutta olmasını talep edecektir. Yani görüntünün nasıl kaydedildiğine bağlı olarak değişecek bir bağımlılık var. Ayrıca, aynı boyuttaki farklı dosya biçimlerinin tansörleri için farklı değerler ürettiği ölçüde, farklı yöntemler ile depolanan fotoğrafları tanımlamak için aynı CNN modelini kullanamazsınız.

— meh
kaynak