Konuşma tanıma uygulaması MP3 metne dönüştürmek için?


Yanıtlar:


21

Kullanabileceğiniz yazılım CMUSphinx . Başka bir cevapta önerilenden farklı olarak Julius uygun değildir çünkü model gerektirir. Büyük kelime konuşma tanıma modelleri Julius için mevcut değil.

Ses dosyasını dönüştürmek için pocketsphinx kullanabilirsiniz . Bu iki komut işi yapmalı. İlk önce dosyayı gereken formata dönüştürür ve sonra onu tanırsınız:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Pocketsphinx çalıştırmak

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Sonuç result.txt içinde saklanır.


Ayrıca, bu cevaba ek olarak, her ikisinin bir serin demo var speech recognitionve voice commandaraçlar burada: youtube.com/...
Daithí

Akustik bir modeli sisteme nasıl eklersiniz?
Jarno

Sadece indirin ve açın, “sisteme ekleyin” diye bir şey yoktur
Nikolay Shmyrev

@NikolayShmyrev pocketsphinx_continuous bunu bulması için nereden açmalıyım?
jarno

4
Eh, ben Ubuntu 14.04 evren deposunda pocketsphinx-utils, pocketsphinx-hmm-en-hub4wsj ve pocketsphinx-lm-en-hub4 paketlerini kurdum. Sonra pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.logçalıştı. Belki de en uygun paketler değillerdir, ancak depolarda bulabildiğim en iyi eşleşmelerdi.
jarno

12

Bunun eski olduğunu biliyorum, ancak Nikolay'in cevabını genişletmek ve gelecekte bir zaman kazanmayı umuyorum, çalışan pocketsphinx'in güncel bir versiyonunu edinmek için onu github veya sourceforge deposundan derlemelisiniz (emin değilsiniz) hangi daha güncel tutulur). -J8'in, eğer mümkünse paralel olarak 8 ayrı işi yürüttüğünü; Daha fazla CPU çekirdeğiniz varsa bu sayıyı artırabilirsiniz.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Ardından ,: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ sayfasının en yeni sürümlerini indirin cmusphinx-en-us-....tar.gzveen-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

O zaman nihayet Nikolay'ın cevabındaki adımlarla devam edebilirsiniz:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Sfenks iyi çalışıyor. Metnin okunabilir bir versiyonunu yapmak için ona güvenmezdim, ancak belirli bir teklifi arıyorsanız, onu aramanız yeterli. Bu, özellikle joker karakterleri kabul eden ve kesin arama ifadeleri gerektirmeyen Xapian ( http://www.lesbonscomptes.com/recoll/ ) gibi bir arama algoritması kullanıyorsanız işe yarar .

Bu yardımcı olur umarım.


4
Her şey bir cazibe gibi çalışır ancak benim durumumda ben düzeltme için aşağıdaki komutu çalıştırmak zorunda pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Vijay Dohare


11

Ubuntu Yazılım Merkezinizi açmayı ve Julius'u aramayı deneyerek konuşmayı metne dönüştürmeyi düşünüyorum.

Açıklama

"Julius" konuşmayla ilgili araştırmacılar ve geliştiriciler için yüksek performanslı, iki geçişli büyük bir kelime sürekli konuşma tanıma (LVCSR) kod çözücü yazılımıdır.

Veya Yazılım Merkezinde olmayan bir başka seçenek ise Simon.

... açık kaynaklı bir konuşma tanıma programıdır ve fareyi ve klavyeyi değiştirir.

Referans Bağlantıları

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.