DCT ve PCA arasındaki ilişki


12

Görüntü ve video sıkıştırmada kullanılan 2D 8x8 DCT hakkında temel bir uygulama bilgim var. Prensip Bileşen Analizi hakkında okurken, PCA açıkça daha genel olsa da, çok benzerlik görebiliyorum. Daha önce DCT hakkında okuduğumda her zaman DFT ile ilgili olarak sunuldu. Benim sorum DCT'nin PCA perspektifinden nasıl türetilebileceği? (el-dalgalı bir açıklama bile yeterlidir)

Çok teşekkürler

Yanıtlar:


19

DCT ve PCA arasındaki temel fark (daha kesin olarak, korelasyon matrisinin özvektörleri tarafından oluşturulan ve Karhunen Loeve Dönüşümü olarak da bilinir) tarafından oluşturulan bir veri kümesini temsil eden PCA'nın belirli bir veri kümesine göre tanımlanması gerektiği ( korelasyon matrisi tahmin edilir), DCT ise "mutlak" olur ve yalnızca giriş boyutuyla tanımlanır. Bu, PCT'yi "uyarlanabilir" bir dönüşüm haline getirirken, DCT veri bağımsızdır.

PCA'nın uyarlanabilirliği nedeniyle neden görüntü veya ses sıkıştırmasında daha sık kullanılmadığı merak edilebilir. Bunun iki nedeni vardır:

  1. Veri kümesinin PCA'sını hesaplayan ve katsayıları kodlayan bir kodlayıcı düşünün. Veri kümesini yeniden yapılandırmak için, kod çözücünün sadece katsayıların kendilerine değil, aynı zamanda dönüşüm matrisine de ihtiyacı olacaktır (erişimi olmayan verilere bağlıdır!). DCT veya başka herhangi bir veri bağımsız dönüşüm, giriş verilerindeki istatistiksel bağımlılıkların giderilmesinde daha az etkili olabilir, ancak dönüşüm matrisi, iletmeye gerek kalmadan kodlayıcı ve kod çözücü tarafından önceden bilinir. Çok az yan bilgi gerektiren bir "yeterince iyi" dönüşüm bazen fazladan bir yan bilgi yükü gerektiren optimum bir dönüşümden daha iyidir ...

  2. NN×64Bu karoların parlaklığı ile matris. Bu veriler üzerinde bir PCA hesaplayın ve tahmin edilecek temel bileşenleri çizin. Bu çok aydınlatıcı bir deney! Yüksek dereceli özvektörlerin çoğunun aslında DCT temelindeki modüle edilmiş sinüs dalgası modelleri gibi görünme ihtimali çok yüksektir. Bu, yeterince büyük ve genel bir görüntü döşemesi kümesi için DCT'nin öz temelin çok iyi bir yaklaşımı olduğu anlamına gelir. Aynı şey, büyük aralıklı ses kayıtları üzerinde tahmin edilen, erimiş aralıklı frekans bantlarındaki log-sinyal enerjisi özünün DCT tabanına yakın olduğu ses için de doğrulanmıştır (bu nedenle DCT'nin bir dekorrelasyon dönüşümü olarak kullanılması) MFCC hesaplanırken).


1
İlginçtir, ancak başlangıçta ve DCT yerine kullanılan görüntülerin 'olağan' istatistiklerine dayanarak farklı bir temel oluşturulamayabilir mi? Böyle bir temelin PCA kadar iyi olmayacağını hayal ediyorum, ama DCT'den daha iyi değil mi?
Spacey

@pichenettes - DCT ile ilgili olarak, artan yatay ve dikey frekans görüntüleri (yani goo.gl/XLMt5 ) nelerdir? DCT temel işlevlerinin görüntü temsili midir? Eğer durum buysa, bu görüntülerin kovaryans matrisinden PCA / özvektörleri hesaplarsam, bu bana esas olarak DCT katsayı matrisi verir mi?
trican

Btw @pichenettes, anlayışlı cevabınız için çok teşekkürler. Nokta 1'in farkındaydım, ama gerçekten nokta 2'yi
düşünmemiştim

1
@Mohammad: Bu iyi bir soru ve cevabını bilmiyorum. DCT kullanmanın avantajlarını görüyorum: daha kolay yazma özellikleri (yazdırmamız daha kolay "dönüşümümüz bu kapalı form işlevidir", "dönüşümümüz bu ekte yayınlanan 64x64 matristir" den daha fazla), hangi veri kümesinin eğitileceği konusunda hiçbir standartlaştırma komitesi toplantısı yok dönüşüm açık, kod çözücülerin ROM'una gömülecek daha az arama tabloları ve muhtemelen 64x64 matris çarpımına kıyasla donanım hızlandırmasını mümkün kılan dönüşüm matrisinde "simetriler" - bu avantajlar marjinal sıkıştırma kazançlarından daha ağır basabilir.
15'te pichenettes

1
@trican: bağlandığınız görüntü 8x8 döşemelerin 2-D DCT temelini temsil eder. 64 küçük döşemenin her biri bir temel işlevdir. Gerçek görüntülerden geniş bir 8x8 karo koleksiyonu alır ve veriler üzerinde bir PCA gerçekleştirirseniz, alacağınız özdeğer buna oldukça benzer olacaktır.
pichenettes
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.