Konuşma tanıma uygulaması MP3 metne dönüştürmek için?

27

Herhangi biri, sesi metne dönüştürebilen bir uygulama biliyor mu? Ubuntu 12.04 LTS'yi çalıştırıyorum.

software-recommendation speech-recognition

— Kopano
kaynak

Konuşulan metin olduğunu varsayıyorum. Bu metin hangi dilde?

— Martin Ueding,

Konuşma metni basit ingilizcedir.

— Kopano

21

Kullanabileceğiniz yazılım CMUSphinx . Başka bir cevapta önerilenden farklı olarak Julius uygun değildir çünkü model gerektirir. Büyük kelime konuşma tanıma modelleri Julius için mevcut değil.

Ses dosyasını dönüştürmek için pocketsphinx kullanabilirsiniz . Bu iki komut işi yapmalı. İlk önce dosyayı gereken formata dönüştürür ve sonra onu tanırsınız:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Pocketsphinx çalıştırmak

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Sonuç result.txt içinde saklanır.

— Nikolay Shmyrev
kaynak

Ayrıca, bu cevaba ek olarak, her ikisinin bir serin demo var speech recognitionve voice commandaraçlar burada: youtube.com/...

— Daithí

Akustik bir modeli sisteme nasıl eklersiniz?

— Jarno

Sadece indirin ve açın, “sisteme ekleyin” diye bir şey yoktur

— Nikolay Shmyrev

@NikolayShmyrev pocketsphinx_continuous bunu bulması için nereden açmalıyım?

— jarno

4

Eh, ben Ubuntu 14.04 evren deposunda pocketsphinx-utils, pocketsphinx-hmm-en-hub4wsj ve pocketsphinx-lm-en-hub4 paketlerini kurdum. Sonra pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.logçalıştı. Belki de en uygun paketler değillerdir, ancak depolarda bulabildiğim en iyi eşleşmelerdi.

— jarno

12

Bunun eski olduğunu biliyorum, ancak Nikolay'in cevabını genişletmek ve gelecekte bir zaman kazanmayı umuyorum, çalışan pocketsphinx'in güncel bir versiyonunu edinmek için onu github veya sourceforge deposundan derlemelisiniz (emin değilsiniz) hangi daha güncel tutulur). -J8'in, eğer mümkünse paralel olarak 8 ayrı işi yürüttüğünü; Daha fazla CPU çekirdeğiniz varsa bu sayıyı artırabilirsiniz.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Ardından ,: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ sayfasının en yeni sürümlerini indirin cmusphinx-en-us-....tar.gzveen-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

O zaman nihayet Nikolay'ın cevabındaki adımlarla devam edebilirsiniz:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Sfenks iyi çalışıyor. Metnin okunabilir bir versiyonunu yapmak için ona güvenmezdim, ancak belirli bir teklifi arıyorsanız, onu aramanız yeterli. Bu, özellikle joker karakterleri kabul eden ve kesin arama ifadeleri gerektirmeyen Xapian ( http://www.lesbonscomptes.com/recoll/ ) gibi bir arama algoritması kullanıyorsanız işe yarar .

Bu yardımcı olur umarım.

— Jonathan Perry-Houts
kaynak

4

Her şey bir cazibe gibi çalışır ancak benim durumumda ben düzeltme için aşağıdaki komutu çalıştırmak zorunda

pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory

-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig

— Vijay Dohare

Bu ayrıca tavsiye edilir cmusphinx.github.io/wiki/tutorialpocketsphinx/...

— andrybak

11

Ubuntu Yazılım Merkezinizi açmayı ve Julius'u aramayı deneyerek konuşmayı metne dönüştürmeyi düşünüyorum.

Açıklama

"Julius" konuşmayla ilgili araştırmacılar ve geliştiriciler için yüksek performanslı, iki geçişli büyük bir kelime sürekli konuşma tanıma (LVCSR) kod çözücü yazılımıdır.

Veya Yazılım Merkezinde olmayan bir başka seçenek ise Simon.

... açık kaynaklı bir konuşma tanıma programıdır ve fareyi ve klavyeyi değiştirir.

Referans Bağlantıları

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

— CoalaWeb
kaynak

1

Speechpad.pw transcription panelini kullanabilirsiniz.

Transkripsiyon kullanma videosunu görün

— alexei
kaynak

Var olan bir dosyanın transkripsiyonunu almak için soruyu cevapladığını düşünmeme rağmen harika görünüyor. Olduğu söyleniyor, sadece Sfenks denedim ve sefil başarısız oldu ... transkripsiyon% 99.9 yanlıştı.

— Alexis Wilke