Konuşma tanıma için gürültü azaltma, konuşmayı insanlar için daha “anlaşılır” kılan gürültü azaltmadan nasıl farklıdır?

bu beni bir süredir ilgilendiren bir soru, çünkü esasen mevcut bir konuşma tanıma sistemi için gürültü azaltma üzerinde çalışıyorum.

Gürültü azaltma teknikleriyle ilgili makalelerin çoğu, konuşmanın insanlar için nasıl daha anlaşılır hale getirileceğine veya "konuşma kalitesi" gibi belirsiz terimlerin nasıl geliştirileceğine odaklanıyor gibi görünüyor.

Eminim, böyle kriterler kullanarak, gürültülü konuşma sinyallerinin insanlar için daha kolay dinlenmesini sağlayan filtreleri tanımlayabilirsiniz. Ancak, konuşma tanıma sisteminin doğruluğunu artırmak için seslendirilmiş konuşma sinyallerini değerlendirmeye çalışırken bu kriterlerin basitçe uyarlanabileceğinden emin değilim.

Gerçekten bu farkı tartışan yazılar bulamıyorum. Konuşma anlaşılırlığı ve konuşma kalitesi, konuşma tanıma sistemlerinin doğruluğu ile ilişkili midir? Bir konuşma tanıma sistemi için sesli konuşma sinyalinin ne kadar "iyi" olacağını, örneğin orijinal temiz konuşma da verilmişse, değerlendirebilecek nesnel önlemler var mı? Ya da gürültü azaltma tekniğinizin ne kadar iyi olduğunu öğrenmenin, konuşma tanıma sistemini sesli veriler üzerinde eğitmenin ve doğruluğa bakmanın tek yolu mu?

Birisi beni doğru yöne yönlendirebilirse veya belki de bunu tartışan bazı makaleler verebilirse mutlu olurum. Şimdiden teşekkürler!

— marlonfl
kaynak

Gerçekten bu farkı tartışan yazılar bulamıyorum.

Konuyla ilgili bütün kitaplar var:

Sağlam Otomatik Konuşma Tanıma 1. Baskı

Konuşma anlaşılırlığı ve konuşma kalitesi, konuşma tanıma sistemlerinin doğruluğu ile ilişkili midir?

Genellikle hayır, genellikle gürültü azaltma özellikleri öngörülemeyen bir şekilde bozulur ve konuşma tanıma doğruluğunu azaltır.

Bir konuşma tanıma sistemi için sesli konuşma sinyalinin ne kadar "iyi" olacağını, örneğin orijinal temiz konuşma da verilmişse, değerlendirebilecek nesnel önlemler var mı? Ya da gürültü azaltma tekniğinizin ne kadar iyi olduğunu öğrenmenin, konuşma tanıma sistemini sesli veriler üzerinde eğitmenin ve doğruluğa bakmanın tek yolu mu?

İkinci. Dahası, özellik tabanlı gürültü azaltma aslında önemli bilgileri spektrumdan tamamen kaldırır, böylece temiz sistemin doğruluğunu onaramazsınız. Bu nedenle modern yaklaşım, gürültü azaltma algoritmasını önceden kullanmak yerine gürültülü veriler üzerinde çok-tarzlı eğitim yapmaktır. Daha doğru tanıma ile sonuçlanır.

— Nikolay Shmyrev
kaynak

Cevaplarınız için teşekkürler. Sanırım doğru kağıtları aramıyordum. O kitaba bir göz atacağım.

— marlonfl

Tamam, kağıt istiyorsanız CHIME-4 meydan okuma sonuçlarını, çoğunlukla sağlam ASR'deki sanat durumunu kontrol edebilirsiniz.

— Nikolay Shmyrev