Fourier dönüşümünü özellik çıkarma işleminde iki kez uygulanmasının nedeni, özelliklerin kulak zarı adı verilen bir konsepte dayanmasıdır. Cepstrum, spektrum kelimesi üzerinde bir oyundur - esasen fikir, bir sinyali Fourier dönüşümü ile frekans alanına dönüştürmek ve sonra frekans spektrumu bir sinyalmiş gibi başka bir dönüşüm yapmaktır.
Frekans spektrumu, her frekans bandının genliğini ve fazını tanımlarken, kulak bandı, frekans bantları arasındaki varyasyonları karakterize eder. Cepstrumdan türetilen özelliklerin, konuşmayı doğrudan frekans spektrumundan alınan özelliklerden daha iyi tanımladığı bulunmuştur.
Birkaç tane farklı tanım var. Başlangıçta cepstrum dönüşümü, Fourier dönüşümü -> karmaşık logaritma -> Fourier dönüşümü [1] olarak tanımlandı. Diğer bir tanım Fourier dönüşümü -> karmaşık logaritma -> ters Fourier dönüşümüdür [2]. İkinci tanım için motivasyon, sarsılmış sinyalleri ayırma kabiliyetindedir (insanın konuşması genellikle bir uyarma ve ses sisteminin kıvrılması olarak modellenir).
Konuşma tanıma sistemlerinde iyi bir performans gösterdiği bilinen bir seçenek, frekans alanına doğrusal olmayan bir filtre bankası uygulamaktır (atıfta olduğunuz mel çifti) [3]. Özel algoritma, Fourier dönüşümü -> büyüklük karesi -> mel filtre bankası -> gerçek logaritma -> ayrık kosinüs dönüşümü olarak tanımlanır.
Burada DCT ikinci dönüşüm olarak seçilebilir, çünkü gerçek değerli girdi için DFT'nin gerçek kısmı bir tür DCT'dir. DCT'nin tercih edilmesinin nedeni, çıktının yaklaşık olarak dekor ile ilgili olmasıdır. Dekore edilmiş özellikler, köşegen bir kovaryans matrisine sahip bir Gauss dağılımı olarak verimli bir şekilde modellenebilir.
[1] Bogert, B., Healy, M. ve Tukey, J. (1963). Yankılar için Zaman Serilerinin Quefrency Alanysis: Cepstrum, Sözde Otokovaryans, Çapraz Cepstrum ve Saphe Cracking. Zaman Serileri Analizi Sempozyumu Bildirilerinde, s. 209-243.
[2] Oppenheim, A. ve Schafer, R. (1968). Konuşmanın Homomorfik Analizi. IEEE İşitsel ve Elektroakustik İşlemlerinde 16, s. 221-226.
[3] Davis, S. ve Mermelstein, P. (1980). Sürekli Konuşulan Cümlelerde Monosiljik Kelime Tanıma için Parametrik Gösterimlerin Karşılaştırılması. Akustik, Konuşma ve Sinyal İşleme Üzerine IEEE İşlemlerinde 28, s. 357-366.