“Bir görüntünün entropisini hesaplamanın en bilgi / fizik-teorik doğru yolu nedir?”
Mükemmel ve zamanında bir soru.
Popüler inanışın aksine, bir görüntü için sezgisel (ve teorik olarak) bir doğal bilgi entropisi tanımlamak gerçekten mümkündür.
Aşağıdaki şekli düşünün:
Diferansiyel görüntünün daha kompakt bir histogramı olduğunu görebiliriz, bu nedenle Shannon bilgi entropisi daha düşüktür. Böylece ikinci dereceden Shannon entropisini (yani diferansiyel verilerden türetilen entropiyi) kullanarak daha fazla artıklık elde edebiliriz. Bu fikri izotropik olarak 2B'ye genişletebilirsek, görüntü bilgisi entropisi için iyi tahminler bekleyebiliriz.
Degradelerin iki boyutlu bir histogramı, 2D genişlemesine izin verir.
Argümanları resmileştirebiliriz ve aslında bu yakın zamanda tamamlanmıştır. Kısaca özetlemek gerekirse:
Basit tanımın (örneğin, MATLAB'ın görüntü entropisi tanımına bakın) mekansal yapıyı göz ardı ettiği gözlem çok önemlidir. Neler olup bittiğini anlamak için kısaca 1D vakasına geri dönmeye değer. Shannon bilgisini / entropisini hesaplamak için bir sinyalin histogramının kullanılmasının, zamansal veya uzamsal yapıyı görmezden geldiği ve sinyalin doğal sıkışabilirliği veya fazlalığı hakkında zayıf bir tahmin verdiği uzun zamandır bilinmektedir. Çözüm Shannon'un klasik metninde zaten mevcuttu; sinyalin ikinci derece özelliklerini, yani geçiş olasılıklarını kullanır. 1971'deki gözlem (Rice & Raster taramada bir piksel değerinin en iyi öngörücüsünün, önceki pikselin değerinin, hemen bir diferansiyel öngörücüye ve çalışma uzunluğu kodlaması gibi basit sıkıştırma fikirleriyle hizalanan ikinci dereceden Shannon entropisine yol açtığıdır. Bu fikirler 80'li yılların sonlarında rafine edildi ve hala kullanımda olan bazı klasik kayıpsız görüntü (diferansiyel) kodlama teknikleri (PNG, kayıpsız JPG, GIF, kayıpsız JPG2000), dalgacıklar ve DCT'ler yalnızca kayıplı kodlama için kullanılıyor.
Şimdi 2B'ye geçiyoruz; araştırmacılar, yönelim bağımlılığı getirmeden Shannon'ın fikirlerini daha yüksek boyutlara genişletmekte çok zorlandılar. Sezgisel olarak, bir görüntünün Shannon bilgi entropisinin oryantasyonundan bağımsız olmasını bekleyebiliriz. Ayrıca karmaşık mekansal yapıya sahip görüntülerin (sorucının rastgele gürültü örneği gibi) basit uzamsal yapıya sahip görüntülerden (sorucının pürüzsüz gri tonlama örneği gibi) daha yüksek bilgi entropisine sahip olmasını bekliyoruz. Shannon'ın fikirlerini 1D'den 2D'ye genişletmenin bu kadar zor olmasının nedeni, Shannon'ın orijinal formülasyonunda 2D'de simetrik (izotropik) bir formülasyonu önleyen (tek taraflı) bir asimetri olduğu ortaya çıkıyor. 1D asimetrisi düzeltildikten sonra 2D uzatma kolayca ve doğal olarak ilerleyebilir.
Kovalamaca kesme (ilgilenen okuyucular , görüntü entropisinin 2D gradyanların 2B histogramından (gradyan olasılık yoğunluk fonksiyonu) hesaplandığı arXiv ön baskısındaki ayrıntılı açıklamayı https://arxiv.org/abs/1609.01117 adresinden kontrol edebilir .
İlk olarak 2D pdf, x ve y türevlerinin resimlerini tahmin ederek hesaplanır. Bu, 1D'de daha yaygın yoğunluk histogramı oluşturmak için kullanılan binning işlemine benzer. Türevler, yatay ve dikey yönlerde hesaplanan 2 piksel sonlu farklarla tahmin edilebilir. Bir NxN kare görüntüsü f (x, y) için kısmi türev fx'in NxN değerlerini ve fy'nin NxN değerlerini hesaplıyoruz. Farklı görüntüyü tararız ve kullandığımız her piksel için (fx, fy) hedef (2D pdf) dizisinde daha sonra birer birer artan ayrık bir bölme bulmak için kullanırız. Tüm NxN pikselleri için tekrarlıyoruz. Ortaya çıkan 2D pdf, genel birim olasılığına sahip olacak şekilde normalleştirilmelidir (sadece NxN'ye bölmek bunu başarır). 2D pdf şimdi bir sonraki aşamaya hazırdır.
2D gradyan pdf'den 2D Shannon bilgi entropisinin hesaplanması basittir. Shannon'ın klasik logaritmik toplama formülü, bir degrade görüntü için özel bant sınırlamalı örnekleme değerlendirmelerinden kaynaklanan önemli bir faktör hariç, doğrudan uygulanır (ayrıntılar için arXiv belgesine bakın). Yarım faktör, hesaplanan 2D entropiyi 2D entropiyi veya kayıpsız sıkıştırmayı tahmin etmek için diğer (daha fazla) yöntemlere kıyasla daha da düşük yapar.
Üzgünüm, burada gerekli denklemleri yazmadım ama baskı öncesi metinde her şey var. Hesaplamalar doğrudan (yinelemesiz) ve hesaplama karmaşıklığı düzgün (piksel sayısı) NxN'dir. Son hesaplanan Shannon bilgi entropisi rotasyondan bağımsızdır ve görüntüyü yedeksiz bir gradyan gösteriminde kodlamak için gereken bit sayısına tam olarak karşılık gelir.
Bu arada, yeni 2D entropi ölçümü, rastgele görüntü için piksel başına 8 bit ve orijinal sorudaki pürüzsüz degrade görüntü için piksel başına 0.000 bitlik (sezgisel olarak hoş) bir entropi öngörmektedir.