Cepstral Ortalama Normalizasyonu

Herkes Cepstral Ortalama Normalizasyonu hakkında bilgi verebilir mi, evrişimin eşdeğerlik özelliği bunu nasıl etkiler? MFCC Tabanlı Hoparlör Tanıma'da CMN yapmak gerekir mi? Evrişim mülkiyeti neden MFCC için temel ihtiyaçtır?

Bu sinyal işleme konusunda çok yeniyim. Lütfen yardım et

mfcc

— mun
kaynak

Filtre bankası kullanılmadan, frekansı doğrudan melscale'e dönüştürmek MFCC sürecinde çalışabilir mi?

— mor

Sadece işleri açıklığa kavuşturmak için - bu özellik temel değil önemli . Spektrum hesaplaması için DFT yerine DCT kullanılması söz konusu olduğunda temel farktır.

Neden Cepstral Ortalama Normalizasyonu Yapıyoruz

Hoparlör tanımada tüm kanal efektlerini (vokal kanalı, ses yolu, oda vb. Dürtü yanıtı) kaldırmak istiyoruz. Giriş sinyalinin ve kanal impuls tepkisinin ile verilmesi şartıyla , kaydedilen sinyal her ikisinin de doğrusal evrişimidir: $x[n]$ $h[n]$

y [n] = x [n] ⋆ h [n]

$y[n] = x[n] \star h[n]$

Fourier Dönüşümü'nü alarak şunları elde ederiz:

Y [f] = X [f] \cdot'H [f]

$Y[f] = X[f]\cdot H[f]$

FT'nin konvolüsyon-çarpma denklik özelliği nedeniyle - bu aşamada FFT'nin bu kadar önemli bir özelliği vardır .

Cepstrumun hesaplanmasındaki bir sonraki adım spektrumun logaritmasını almaktır:

Y [q] = günlük Y [f] = günlük (X [f] \cdot'H [f]) = X [q] +'H [q]

$Y[q] = \log Y[f] = \log \left( X[f] \cdot H[f]\right) = X[q] + H[q]$

çünkü: . Açıkçası , quefrencydır . Fark edileceği gibi, zaman alanında evrişim cepstrumunu alarak cepstral (quefrency) alanına ekleme ile sonuçlanırız. $\log(ab) = \log a +\log b$ $q$

Cepstral Ortalama Normalizasyonu Nedir?

Şimdi biliyoruz ki cepstral alanda herhangi bir evrişimsel bozulma, ilavelerle temsil edilmektedir. Hepsinin durağan olduğunu (vokal kanalı ve kanal yanıtı değişmediği için güçlü bir varsayımdır) ve konuşmanın durağan kısmının ihmal edilebilir olduğunu varsayalım. Gerçek olan her i-th çerçevesi için:

Y_{ben} [q] ='H [q] + X_{ben} [q]

$Y_i[q] = H[q] + X_i[q]$

Tüm karelerin ortalamasını alarak

\frac{1}{N-} \underset{ben}{Σ} Y_{ben} [q] ='H [q] + \frac{1}{N-} \underset{ben}{Σ} X_{ben} [q]

$\dfrac{1}{N}\sum_{i} Y_i[q] = H[q] + \dfrac{1}{N}\sum_{i} X_i[q]$

Farkın tanımlanması:

\begin{matrix} {R,}_{ben} [q] & = Y_{ben} [q] - \frac{1}{N-} \underset{j}{Σ} Y_{j} [q] \\ ='H [q] + X_{ben} [q] - ('H [q] + \frac{1}{N-} \underset{j}{Σ} X_{j} [q]) \\ = X_{ben} [q] - \frac{1}{N-} \underset{j}{Σ} X_{j} [q] \end{matrix}

$\begin{array} &R_i[q] &= Y_i[q] - \dfrac{1}{N}\sum_{j} Y_j[q]\\ & = H[q] + X_i[q] - \left(H[q] + \dfrac{1}{N}\sum_{j} X_j[q]\right) \\ & = X_i[q] - \dfrac{1}{N}\sum_{j} X_j[q]\\ \end{array}$

Kanal bozulmaları kaldırılmış sinyalimizle son buluyoruz. Yukarıdaki tüm denklemleri basit İngilizceye koymak:

Cepstrum'u hesapla
Her katsayıdan ortalamayı çıkarın
İsteğe bağlı olarak Çıkarma yerine Cepstral Ortalama Normalizasyonu gerçekleştirmek için varyansa bölün.

Cepstral Ortalama Normalizasyonu gerekli midir?

Özellikle bir hoparlörü tek bir ortamda tanımaya çalıştığınızda bu zorunlu değildir. Aslında, ek gürültü nedeniyle hatalara eğilimli olduğu için sonuçlarınızı bile bozabilir:

y [n] = x [n] ⋆ h [n] + w [n]

$y[n] = x[n] \star h[n] + w[n]$

Y [f] = X [f] \cdot'H [f] + W [f]

$Y[f] = X[f]\cdot H[f] + W[f]$

günlük Y [f] = günlük [X [f] ('H [f] + \frac{W [f]}{X [f]})] = günlük X [f] + günlük ('H [f] + \frac{W [f]}{X [f]})

$\log Y[f] = \log \left[X[f]\left(H[f]+\dfrac{W[f]}{X[f]} \right) \right] = \log X[f] +\log \left(H[f]+\color{red}{\dfrac{W[f]}{X[f]}} \right)$

Kötü SNR koşullarında, işaretli terim tahmini geçebilir.

CMS uygulandığında, genellikle birkaç yüzde daha fazla kazanabilirsiniz. Bu performans kazancını katsayı türevlerinden eklerseniz tanıma oranınızda gerçek bir artış elde edersiniz. Son karar size kalmış, özellikle de konuşma tanıma sistemlerinin iyileştirilmesi için kullanılan başka birçok yöntem var.

— jojek
kaynak

@mun: Yardım ettiğine sevindim. Yeni kullanıcı kısıtlamalarını kaldırabilmeniz için neden sorularınızın yanıtlarını kabul edilmiş olarak işaretlemiyorsunuz?

— jojek

@mun: Tebrikler! Şimdi daha fazla bağlantı gönderiyorsunuz, soru ve cevaplara oy verin + yayınları işaretleyin.

— jojek

teşekkürler @jojek .. Bunların hepsi için çok yeniyim.Ancak sorunumu çözdüğüm için mutluyum.

— mun

@mun: O zaman kesinlikle hızlı bir tur

— jojek

Son cevapta, "katsayıların türevlerinden elde edilen performans kazancına katkıda bulun" ifadesinin aslında ne anlama geldiğini anlayamıyorum. Basit bir açıklama yapabilir misiniz? Çok teşekkürler

— Shuai Wang