DCT'yi bir sıkıştırma adımı olarak düşünebilirsiniz. Tipik olarak MFCC'lerde, DCT'yi alıp yalnızca ilk birkaç katsayıyı koruyacaksınız. Bu temelde DCT'nin JPEG sıkıştırmasında kullanılmasıyla aynı nedendir. DCT'ler seçilir çünkü sınır koşulları bu tür sinyallerde daha iyi çalışır.
DCT'yi Fourier dönüşümü ile karşılaştıralım. Fourier dönüşümü, tamsayı sayıda döngüye sahip sinüzoidlerden oluşur. Bu, Fourier temel işlevlerinin tümü aynı değerde başlar ve biter - farklı değerlerde başlayan ve biten sinyalleri temsil etmek için iyi bir iş yapmazlar. Fourier dönüşümünün periyodik bir uzantı aldığını unutmayın: Sinyalinizi bir kağıt üzerinde hayal ederseniz, Fourier dönüşümü sol ve sağ tarafların birleşmesi için bu sayfayı bir silindire dönüştürmek ister.
Kabaca negatif eğimli (oldukça tipik olan) bir çizgi gibi şekillendirilmiş bir spektrumu düşünün. Fourier dönüşümü bu şekle uyması için birçok farklı katsayı kullanmalıdır. Öte yandan, DCT'de yarı tamsayı sayıda döngü içeren kosinüsler bulunur. Örneğin, negatif eğimli o çizgiye benzeyen bir DCT temel işlevi vardır. Bir dönem uzatması (bunun yerine eşit bir uzantı) varsaymaz, bu nedenle bu şekle uydurmak için daha iyi bir iş yapar.
Öyleyse, bunu bir araya getirelim. Mel-frekans spektrumunu hesapladıktan sonra, insan işitmesinin işleyişine benzer şekilde duyarlı spektrumun bir temsiline sahipsiniz. Bu şeklin bazı yönleri diğerlerinden daha önemlidir. Genellikle, daha büyük kapsayıcı spektral şekil, spektrumdaki gürültülü ince detaylardan daha önemlidir. Spektral şekli takip etmek için düzgün bir çizgi çizmeyi hayal edebilirsiniz ve çizdiğiniz düz çizginin size sinyal hakkında çok fazla şey söyleyebileceğini hayal edebilirsiniz.
DCT'yi alıp daha yüksek katsayıları attığınızda, bu spektral şekli alıyorsunuz ve yalnızca bu pürüzsüz şekli temsil etmek için daha önemli parçaları koruyorsunuz. Fourier dönüşümünü kullandıysanız, önemli bilgileri düşük katsayılarda tutmak iyi bir iş olmazdı.
MFCC'leri bir makine öğrenme algoritmasına özellikler olarak beslemeyi düşünüyorsanız, bu düşük dereceli katsayılar iyi özellikler yaratacaktır çünkü bunlar spektral şeklin bazı basit yönlerini temsil ederken, attığınız yüksek dereceli katsayılar daha gürültüye benzer ve eğitilmesi önemli değildir. Ek olarak, Mel spektrum büyüklükleri üzerinde eğitim muhtemelen iyi olmayacaktır çünkü farklı frekanslardaki belirli genlik, spektrumun genel şeklinden daha az önemlidir.