Ses Etkinliği Tespiti için Kütüphaneler (Konuşma Tanıma Değil)


18

Önceki sorumu takip ederken , var olan herhangi bir konuşma algılama kütüphanesi olup olmadığını merak ediyordum. Konuşma algılama ile bir ses arabelleğine geçmek ve konuşmanın başladığı ve durduğu bir dizini geri almak kastediyorum. 44kHz'de 10 saniyelik ses örneklemem varsa, şöyle bir sayı dizisi beklerim:

44000
88000
123000
190334
...

Bu, örneğin konuşmanın bir saniye içinde başlayıp iki saniye noktasında bittiği anlamına gelir.

Ne ediyorum değil arayan söylenen söz metni dışarı yazıyor konuşma tanıma olduğunu. Ne yazık ki bu 'konuşma algılama' google çok gördüğüm şey.

İPhone için bir uygulama yazarken kütüphanenin C, C ++ veya hatta Objective-C olması harika olurdu.

Teşekkürler!


1
Cevabınızı şu cevaplardan birinde bulabilirsiniz: dsp.stackexchange.com/questions/912/…
Geerten

1
Bu yerine konuşma ve şarkı dışında çok benzer dsp.stackexchange.com/q/2367/29
Endolit

1
Ayrıca ilgili: dsp.stackexchange.com/a/1543/29 "ses faaliyet algılama"
Endolit

1
Başlangıç ​​/ ofset algılamaya bakmalısınız. Müzik, konuşma ve radar sinyal işlemede birçok uygulama ile aktif bir alandır.
CyberMen

Yanıtlar:


13

Bu soruya verdiğim cevaba göre , Ses Aktivitesi Algılama'nın G.729 gibi kodekler için standart bir özellik olduğunu belirtmiştim.

Bunu uygulayan algoritmalar için referans kodlayıcılar ve kod çözücüler aramalısınız.

Böyle bir örnek - http://www.voiceage.com/openinit_g729.php

Başka bir olası kaynak Speex codec bileşenidir. Hangi VAD uygular

BTW: Google'da "Konuşma Algılama" yerine "Ses Etkinliği Algılama" veya "Talk Spurt" yapmalısınız.



4

Uyarlanabilir Eşik kullanarak Ses Etkinliği Algılama herhangi bir platformda uygulanması çok kolay ve kullanışlıdır

Burada Adaptif Enerji tabanlı bir algoritmaya sahip olabilirsiniz.

İlk kez hesaplarken yukarıdaki algoritmaya küçük bir ekleme, Enerji Ortalamasını almak için emin olun ve Emin olarak işaretleyin

burada geçtiğiniz çerçeve alt çerçevelere bölünür ve ayrıca her bir alt çerçeveyi etkinliği için inceleyebilirsiniz

çakışan çerçevelerle ilgili diğer sorunların üstesinden gelebilirsiniz


Yöntemi kağıtta uygulamaya çalışıyorum ama gürültü bastırma nedeniyle Min_E sıfır olduğunda kaybolmak. Bu durumda Thresh_E denkleminden -INF olur. Log1p (Min_E) alsa bile, Thresh_E sıfır değildir, böylece sıfır olmayan enerji nedeniyle sesli kareleri yanlış sınıflandırmak çok kolaydır. Herhangi bir iyi öneri veya yanlış anladım mı? Denklemler: Harman _ E Enerji _ Pr imThresh * günlüğü (Min _ E)
Farley

3

LibVAD'a ne dersiniz?

Anlaşılan şeyi tam olarak yapıyor gibi görünüyor.

Açıklama: LibVAD'ın arkasındaki geliştiriciyim


Nasıl libVAD alabilirim?
todd

Satın alarak. Web sitesi, bir formu doldurduktan sonra bir fiyat açıklamaz.
Camille Goudeseune

2
Bağlantı şimdi ziyaretçilerin flaş güncellemesini isteyen bir kötü amaçlı yazılım sitesine gidiyor.
Steve Severance
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.