Görüntünün entropisi


21

Bir görüntünün entropisini hesaplamanın en bilgi / fizik-teorik doğru yolu nedir? Şu anda hesaplama verimliliğini umursamıyorum - teorik olarak mümkün olduğunca doğru olmasını istiyorum.

Gri ölçekli bir görüntü ile başlayalım. Sezgisel bir yaklaşım, görüntüyü bir piksel torbası olarak düşünmek ve hesaplamaktır ; burada , gri seviye sayısıdır ve , gri seviye ile ilişkili olasılıktır .K p k k

H=kpklog2(pk)
Kpkk

Bu tanımla ilgili iki sorun vardır:

  1. Bir bant için çalışır (yani gri tonlama), ancak bunu birden fazla bant için istatistiksel olarak doğru bir şekilde nasıl genişletmeliyiz? Örneğin, 2 grup için, biri kullanarak kendini ve dolayısıyla temel almalı mı? Birinde çok sayıda ( >> 2) bant varsa, P (X_1 = x_1, ..., X_B = x_B) \ sim 1 / N ^ B \ rightarrow H_ {MAX} , bu yanlış görünüyor.P ( X 1 = x 1 , X 2 = x 2 ) B(X1,X2)P(X1=x1,X2=x2)BP(X1=x1,...,XB=xB)1/NBHMAX
  2. Konumsal bilgiler dikkate alınmaz. Örneğin, aşağıdaki görüntüler ( John Loomis'in velayeti ) aynı H , ancak aynı bilgileri açıkça aktarmasalar da.

resim açıklamasını buraya girinresim açıklamasını buraya girin

Herkes açıklamaya veya tavsiyede bulunmaya ya da beni konuyla ilgili bazı iyi referans materyallerine yönlendirmeye önem veriyor mu? Esas olarak ikinci problemin teorik olarak doğru bir yaklaşımıyla ilgileniyorum (örn. Mekansal bilgi).


2
Sanırım markov rastgele alanlarına bakmalısınız, örneğin files.is.tue.mpg.de/chwang/papers/CVIU2013_MRFSurvey.pdf
seanv507

1
ayrıca graylevel cooccurrence matrisler
seanv507 16:16

@ seanv507, evet gerçekten. Yönlendirilmemiş grafik modeller veya Markov rasgele alanları şu anda çalıştığım şey. Ben daha fazla bilgi zaman geri gönderecek.
Davor Josipovic

Yanıtlar:


17

“Bir görüntünün entropisini hesaplamanın en bilgi / fizik-teorik doğru yolu nedir?”

Mükemmel ve zamanında bir soru.

Popüler inanışın aksine, bir görüntü için sezgisel (ve teorik olarak) bir doğal bilgi entropisi tanımlamak gerçekten mümkündür.

Aşağıdaki şekli düşünün:

resim açıklamasını buraya girin

Diferansiyel görüntünün daha kompakt bir histogramı olduğunu görebiliriz, bu nedenle Shannon bilgi entropisi daha düşüktür. Böylece ikinci dereceden Shannon entropisini (yani diferansiyel verilerden türetilen entropiyi) kullanarak daha fazla artıklık elde edebiliriz. Bu fikri izotropik olarak 2B'ye genişletebilirsek, görüntü bilgisi entropisi için iyi tahminler bekleyebiliriz.

Degradelerin iki boyutlu bir histogramı, 2D genişlemesine izin verir.

Argümanları resmileştirebiliriz ve aslında bu yakın zamanda tamamlanmıştır. Kısaca özetlemek gerekirse:

Basit tanımın (örneğin, MATLAB'ın görüntü entropisi tanımına bakın) mekansal yapıyı göz ardı ettiği gözlem çok önemlidir. Neler olup bittiğini anlamak için kısaca 1D vakasına geri dönmeye değer. Shannon bilgisini / entropisini hesaplamak için bir sinyalin histogramının kullanılmasının, zamansal veya uzamsal yapıyı görmezden geldiği ve sinyalin doğal sıkışabilirliği veya fazlalığı hakkında zayıf bir tahmin verdiği uzun zamandır bilinmektedir. Çözüm Shannon'un klasik metninde zaten mevcuttu; sinyalin ikinci derece özelliklerini, yani geçiş olasılıklarını kullanır. 1971'deki gözlem (Rice & Raster taramada bir piksel değerinin en iyi öngörücüsünün, önceki pikselin değerinin, hemen bir diferansiyel öngörücüye ve çalışma uzunluğu kodlaması gibi basit sıkıştırma fikirleriyle hizalanan ikinci dereceden Shannon entropisine yol açtığıdır. Bu fikirler 80'li yılların sonlarında rafine edildi ve hala kullanımda olan bazı klasik kayıpsız görüntü (diferansiyel) kodlama teknikleri (PNG, kayıpsız JPG, GIF, kayıpsız JPG2000), dalgacıklar ve DCT'ler yalnızca kayıplı kodlama için kullanılıyor.

Şimdi 2B'ye geçiyoruz; araştırmacılar, yönelim bağımlılığı getirmeden Shannon'ın fikirlerini daha yüksek boyutlara genişletmekte çok zorlandılar. Sezgisel olarak, bir görüntünün Shannon bilgi entropisinin oryantasyonundan bağımsız olmasını bekleyebiliriz. Ayrıca karmaşık mekansal yapıya sahip görüntülerin (sorucının rastgele gürültü örneği gibi) basit uzamsal yapıya sahip görüntülerden (sorucının pürüzsüz gri tonlama örneği gibi) daha yüksek bilgi entropisine sahip olmasını bekliyoruz. Shannon'ın fikirlerini 1D'den 2D'ye genişletmenin bu kadar zor olmasının nedeni, Shannon'ın orijinal formülasyonunda 2D'de simetrik (izotropik) bir formülasyonu önleyen (tek taraflı) bir asimetri olduğu ortaya çıkıyor. 1D asimetrisi düzeltildikten sonra 2D uzatma kolayca ve doğal olarak ilerleyebilir.

Kovalamaca kesme (ilgilenen okuyucular , görüntü entropisinin 2D gradyanların 2B histogramından (gradyan olasılık yoğunluk fonksiyonu) hesaplandığı arXiv ön baskısındaki ayrıntılı açıklamayı https://arxiv.org/abs/1609.01117 adresinden kontrol edebilir .

İlk olarak 2D pdf, x ve y türevlerinin resimlerini tahmin ederek hesaplanır. Bu, 1D'de daha yaygın yoğunluk histogramı oluşturmak için kullanılan binning işlemine benzer. Türevler, yatay ve dikey yönlerde hesaplanan 2 piksel sonlu farklarla tahmin edilebilir. Bir NxN kare görüntüsü f (x, y) için kısmi türev fx'in NxN değerlerini ve fy'nin NxN değerlerini hesaplıyoruz. Farklı görüntüyü tararız ve kullandığımız her piksel için (fx, fy) hedef (2D pdf) dizisinde daha sonra birer birer artan ayrık bir bölme bulmak için kullanırız. Tüm NxN pikselleri için tekrarlıyoruz. Ortaya çıkan 2D pdf, genel birim olasılığına sahip olacak şekilde normalleştirilmelidir (sadece NxN'ye bölmek bunu başarır). 2D pdf şimdi bir sonraki aşamaya hazırdır.

2D gradyan pdf'den 2D Shannon bilgi entropisinin hesaplanması basittir. Shannon'ın klasik logaritmik toplama formülü, bir degrade görüntü için özel bant sınırlamalı örnekleme değerlendirmelerinden kaynaklanan önemli bir faktör hariç, doğrudan uygulanır (ayrıntılar için arXiv belgesine bakın). Yarım faktör, hesaplanan 2D entropiyi 2D entropiyi veya kayıpsız sıkıştırmayı tahmin etmek için diğer (daha fazla) yöntemlere kıyasla daha da düşük yapar.

Üzgünüm, burada gerekli denklemleri yazmadım ama baskı öncesi metinde her şey var. Hesaplamalar doğrudan (yinelemesiz) ve hesaplama karmaşıklığı düzgün (piksel sayısı) NxN'dir. Son hesaplanan Shannon bilgi entropisi rotasyondan bağımsızdır ve görüntüyü yedeksiz bir gradyan gösteriminde kodlamak için gereken bit sayısına tam olarak karşılık gelir.

Bu arada, yeni 2D entropi ölçümü, rastgele görüntü için piksel başına 8 bit ve orijinal sorudaki pürüzsüz degrade görüntü için piksel başına 0.000 bitlik (sezgisel olarak hoş) bir entropi öngörmektedir.


1
İlginç bir çalışma. Şimdi, Razlighi bu yazıda birkaç entropi algoritmasının bir karşılaştırmasını yaptı . Sizinki, özellikle orada kullandığı sentetik görüntüde nasıl karşılaştırılacağını merak ediyorum. Araştırmaya değer olabilir.
Davor Josipovic

Razlighi'nin gazetesinden bahsettiğiniz için teşekkür ederiz. Önemli test sonuçları Şekil 2'de gösterilmektedir. 2D delentropi ölçümümün korelasyon 0.0 için birim normalleştirilmiş entropiye sahip olacağına ve sonra korelasyon 1.0 için sıfıra yakın normalize entropiye düşeceğine inanıyorum. Bu değerleri aslında hesaplamamıştım, ancak yüksek korelasyon düşük spektral bant genişliğine, dolayısıyla düşük entropiye karşılık geldiğinden doğrudan arXiv ön baskımın 3.2.
Kieran Larkin

Bu yaklaşımı seviyorum. Benim için sezgisel görünüyor. Entropiyi hesaplamadan önce gradyanı hesaplamanın ek adımı, uzamsal bilgileri sezgisel olarak kodlamaktadır. Burada oynamayı ve Python ile hesaplamayı denedim . Ama kostikleri makalenizden yeniden üretmek için mücadele ettim (bkz. Kod, son örnek). Onları sadece şamandıralarla çoğaltabilirim! Çünkü tamsayılarla degradeler test görüntüm için [-6,6] 'dadır, 16 bit kullanırken bile histogram için sadece 49 sıfır olmayan bölme elde edilir.
mxmlnkn

makaleniz hiç yayınlandı mı? Siz veya bir başkası çalışmaya devam mı ettiniz?
Andrei

Matlab örnek kodu harika olurdu.
Pedro77

8

Hiçbiri yoktur, hepsi bağlama ve önceki bilgilerinize bağlıdır. Entropinin "düzenin ölçülmesi" veya "bilginin ölçülmesi" gibi birçok yorumu vardır, ancak yorumlara bakmak yerine gerçekte ne olduğuna bakabilirsiniz. Entropi, bir sistemin durum sayısını ifade etmenin bir yoludur. Birçok duruma sahip bir sistem yüksek bir entropiye sahiptir ve az sayıda duruma sahip bir sistem düşük bir entropiye sahiptir.

Siz ve bağlantı verdiğiniz makale, iki görüntünün aynı entropiye sahip olduğunu belirtir. Bu doğru değil (benim için).

Makale entropiyi doğru hesaplar.

H=kpklog2(pk)

İlk görüntü için herhangi bir pikselin gri değeri olabilir,

pk=1M=2n

Bu nedenle entropi:

H=kpklog2(pk)=k2nlog2(2n)=log2(2n)=n

Ancak, ikinci görüntü için durum böyle değildir .

Entropi yine de şu şekilde hesaplanabilir:

H=kpklog2(pk)

ancak basit demek olamaz , bulduğunuzda çünkü bir değeri olması için, bunu biliyorsun olduğunu aynı değer.p1p2,p3,p4pmanypk=1M=2np1p2,p3,p4pmany

Bu nedenle, iki görüntü aynı entropiye sahip değildir.

Entropinin soruna nasıl baktığınıza bağlı olduğu sezgisel gelebilir. Ancak, muhtemelen sıkıştırmadan biliyorsunuz. Bir dosyanın maksimum sıkıştırılması, bir sıkıştırma algoritmasının bir dosyayı ne kadar iyi sıkıştırabileceğine dair bir üst sınır belirleyen Shannon'ın kaynak kodlama teoremi tarafından belirlenir . Bu sınır, dosyanın entropisine bağlıdır. Tüm modern kompresörler bu sınıra yakın bir dosyayı sıkıştıracaktır.

Ancak, dosyanın bir ses dosyası olduğunu biliyorsanız, bazı genel kompresörler yerine FLAC kullanarak sıkıştırabilirsiniz. FLAC kayıpsız olduğundan tüm bilgiler korunur. FLAC, Shannon'ın kaynak kodlama teoremini alamaz, bu matematiktir, ancak dosyaya entropiyi azaltacak şekilde bakabilir, böylece daha iyi bir sıkıştırma yapabilir.

Aynı şekilde, ikinci görüntüye baktığımda, piksellerin gri değere göre sıralandığını görüyorum ve bu nedenle rastgele parazitli görüntü ile aynı entropiye sahip değilim.


Bence OP bunun farkında - mekansal bilgi içeren olasılık modelleri istiyor
seanv507 16:16

@ seanv507 Soruyu tekrar okudum. Seninle aynı fikirde olup olmadığımdan emin değilim. OP'nin var olmayan bir şey aradığına inanıyorum.
bottiger

@bottiger, cevabınız için teşekkür ederim. Sanırım hepimiz 2 görüntünün aynı entropiye sahip olması gerektiğine katılıyoruz. Bilmek istediğim, bunu hesaplamanın doğru (kavramsal / teorik olarak) bir yoludur. için verilen basit formül mekansal bilgiyi açıklamıyor gibi görünmektedir. Yani soru, doğru bir şekilde nasıl genişletileceğidir. Daha fazlasını öğrendiğimde geri geleceğim. H
Davor Josipovic

@bottiger FLAC bir ses dosyasının entropisini azaltamaz çünkü bu kayıplı sıkıştırma olarak tanımlanır.
Paul Uszak

Belki klasik entropi formülünün sadece piksel değerleri durağan olarak bağımsızsa doğru olduğunu söylemek doğrudur?
volperossa

2

Esasen entropi fikri, "makrostat ile tutarlı mikro durumların sayısı" gibi bir şeydir.

Bence sean507'nin ve bottiger'in cevabı ortak bir çerçeveye işaret ediyor. Eğer bir görüntü alanını temsil ederse üretken modeli , , daha sonra verilen bir görüntü için size (prensipte) bir hesaplayabilirsiniz posterior gizli devletler üzerinde (ayrıca buraya bakın ). Sonra (prensip olarak) posteriorun entropisini hesaplayabilirsiniz.Ben p [p[I,h]Ip[hI]

Bu yüzden, herhangi bir "entropinin", "en teorik olarak doğru anlamda" bile, hem kullanılan temsile , hem de "mikro-yapıları" ( ) "makrolar" ( ) ile birleştiren üretken modele bağlı olacağı konusunda hemfikirim .benhI


1

'H=-ΣkpklÖg2(pk)

yok DEĞİL o Pk belirlemek için neredeyse imkansız olduğunu basit bir nedenle, uygulamada çalışır. Gri seviyelerin sayısını göz önünde bulundurarak yaptığınız gibi yapabileceğinizi düşünüyorsunuz. Pk o değil. Pk tüm gri seviye kombinasyonlarıdır . Yani 1, 2, 3 ... piksel kombinasyonlarını göz önünde bulundurarak çok boyutlu bir olasılık ağacı oluşturmalısınız. Shannon'ın çalışmasını okursanız, 3 harflik bir ağaç derinliği göz önüne alındığında bu hesaplamayı düz İngilizce için yaptığını görürsünüz. Daha sonra bilgisayar olmadan hantallaşır.

Bunu ifade 2 ile kendiniz kanıtladınız. Bu yüzden entropi hesaplamanız, biri diğerinden açıkça daha az sıralı olsa bile, iki görüntü için aynı entropi seviyesini döndürür.

Entropi hesaplamasında böyle bir uzaysal dağılım kavramı da yoktur. Eğer olsaydı, geçici olarak dağıtılmış örnekler için entropiyi farklı şekilde hesaplamanız gerekirdi. Ve 11 boyutlu bir veri dizisi için ne yapardınız? Bilgilendirici entropi için; bayt olarak ölçülür.

Sadece bir sıkıştırma algoritması kullanarak görüntüleri sıkıştırın. Bayt cinsinden entropinin bir tahminini verecektir. Bunu herhangi bir görüntü veya müzik veya Shakespeare oyunları gibi sayısallaştırılabilecek herhangi bir şey için yapacak.

Yani. Rastgele resminiz yaklaşık 114 KBayt ve sipariş ettiğiniz resim yaklaşık 2,2 KBayt içeriyor. Bu beklediğiniz şeydir, ancak görüntü dosya boyutlarının bu boyutta olduğunu gördüğünüz için bunu zaten biliyordunuz. Sıkıştırma algoritmalarında gelecekteki iyileştirmelere izin vermek için sıkıştırılmış boyutu% 33 oranında küçülttüm. İyileşme eğrisi gerçek bir temel değere asimptotik hale geldiğinden, bunların ötesinde geliştiğini göremiyorum.

PS İlgi için, Shakespeare tüm yaşamı boyunca bu teknikle hesaplanan sadece 1 MByte entropi üretti. Yine de çoğu oldukça iyi.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.